# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

04-291659

(43) Date of publication of application: 15.10.1992

(51)Int.Cl.

G06F 15/16

(21)Application number: 03-056467

(71)Applicant: HITACHI LTD

(22) Date of filing:

20.03.1991

(72)Inventor: MARIUSU HANKU

**IWASAKI KAZUHIKO** 

SATO YUJI

# (54) PARALLEL COMPUTER SYSTEM AND ITS OPERATION METHOD

(57)Abstract:

PURPOSE: To execute a different instruction in each processor group out of plural processors to which a single instruction is applied.

CONSTITUTION: A microcontroller 30 outputs a primary instruction to a bus 31, outputs a coincidence word for specifying a processor zone to an address bus 39 and outputs a signal AMODE for specifying an operation mode to a bus 34. Each processor has a circuit for judging which processor zone includes itself and a circuit for forming a secondary instruction by correcting an inputted primary instruction when a mode signal is an instruction correcting mode. The secondary instruction can be set up also as a NO OPERATION instruction. Since the secondary instruction can be generated from the circuit of each processor, a different instruction can be executed in each processor zone.



## LEGAL STATUS

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

(19)日本国特許庁 (JP)

# (12) 公開特許公報(A)

FΙ

(11)特許出願公開番号

特開平4-291659

(43)公開日 平成4年(1992)10月15日

(51) Int.CI.5

識別記号

庁内整理番号

技術表示箇所

G06F 15/16

390 T 9190-5L

審査請求 未請求 請求項の数16(全 40 頁)

(21)出願番号

特顏平3-56467

(22)出願日

平成3年(1991)3月20日

(71)出願人 000005108

株式会社日立製作所

東京都千代田区神田駿河台四丁目6番地

(72) 発明者 マリウス・ハンク

東京都国分寺市東恋ケ窪1丁目280番地

株式会社日立製作所中央研究所内

(72)発明者 岩崎 一彦

東京都国分寺市東恋ケ窪1丁目280番地

株式会社日立製作所中央研究所内

(72)発明者 佐藤 裕二

東京都国分寺市東恋ケ窪1丁目280番地

株式会社日立製作所中央研究所内

(74)代理人 弁理士 小川 勝男

(54)【発明の名称】 並列コンピユータシステムおよびその動作方法

## (57)【要約】

【目的】単一命令が与えられる複数のプロセッサにおいて、プロセッサグループごとに異なる命令を実行可能にする。

【構成】マイクロコントローラ30より一次命令をバス31に出力し、アドレスバス39にプロセッサゾーンを指定するための一致ワードを出力し、パス34に動作モノードを指定する信号AMODEを出力する。各プロセッサは、自己がどのプロセッサゾーンに属するかを判別する回路と、このモード信号が命令修正モードのとき入力された一次命令を修正した二次命令を生成する回路を有する。この二次命令は、No operation 命令とすることもできる。

【効果】各プロセッサ内の回路により、二次命令を発生できるので、プロセッサゾーンごとに異なる命令を実行可能になる。



(2)

特開平4-291659

【特許請求の範囲】

【請求項1】複数のプロセッサのアレーからなる並列コ ンピュータシステムにおいて、各プロセッサに対し同一 の一次命令を送り、 各プロセッサに対し前記プロセッ サアレーのプロセッサのうち選択されたプロセッサのグ ループを特定する第1の信号を送り、各プロセッサにお いてそのプロセッサが前配選択されたプロセッサのグル ープに属するかどうかを検出し、該選択されたプロセッ サグループに属すると検出された複数のプロセッサの各 わりに実行すべき2次命令を生成するというステップか らなる、アレーのプロセッサを動作させる方法。

【請求項2】各プロセッサが該一次命令及び該第1の信 号を並列に受け取る、請求項1記載の方法。

【請求項3】 更に、プロセッサのそれぞれに対し、選択 されたプロセッサのグループに属するプロセッサによっ て生成されるべき命令に関連する第2の信号を送り、該 二次命令の生成は、受け取られた一次命令及び前記第2 の信号に基づいて行う請求項1記載の方法。

【請求項4】各プロセッサが、共通のバスを通して前記 20 第1の信号及び前記第2の信号を並列に受け取る、請求 項3記載の方法。

【請求項5】前記2次命令の生成は、受け取った命令の 一部を前記第2の信号に依存して定まる新しい情報によ って置き換えることを含む請求項3記載の方法。

特定する情報を含み、そして第2の信号はそれぞれ、該 複数のプロセッサグループの一つに属するプロセッサに よって生成される複数の命令に関連し、核二次命令の生 成は、プロセッサが属するプロセッサグループ、及び対 30 応する第2の信号に基づいている請求項3に記載の方 法。

【請求項7】前記第1の信号及び前記第2の信号が、ア ドレス情報による時分割の方法により、プロセッサアレ ーをコントロールするアドレスパスへ送られる、請求項 1, 2, 3, 4, 5及び6のいづれか1つの項に記載の 方法。

【請求項8】プロセッサのアレーからなる並列コンピュ ータシステムにおいて、プロセッサアレーを多数の第1 のプロセッサグループに分割し、第1のプロセッサグル ープの全てのプロセッサに対し同一の初期命令を送り、 第1のプロセッサグループの各プロセッサに対し前記プ ロセッサグループのプロセッサの中の多数の第2のプロ セッサグループを特定する共通の第1の信号を並列に送 り、第1のプロセッサグループの中の各プロセッサに対 し、前配第1のプロセッサグループのそれぞれの第2の プロセッサグループに属するプロセッサによって生成さ れる命令に関連する共通の第2の信号を並列に送り、受 け取った命令の代わりに実行すべき 2 次的な命令を各プ ロセッサにおいてローカルに生成し、前配生成が、受け 50 アドレス情報による時分割の方法により、プロセッサア

取った初期命令、第2のプロセッサグループに属するプ ロセッサであることを検出した結果、及び前配第2のプ ロセッサグループに対応する前配第2の信号、に基づい ているというステップからなるアレーのプロセッサを助 作させる方法。

【請求項9】コントロール回路手段から同一の初期命令 を受け取るプロセッサ手段のアレーからなる並列コンピ ュータシスタムにおいて、前記プロセッサアレー手段の プロセッサの中から選択されたプロセッサのグループを 々において、眩受け取った一次命令から、その命令の代 10 特定する第1の信号ライン手段と、各プロセッサの中に 含まれ、そのプロセッサが選択されたプロセッサのグル ープに属するかどうかを検出するために、受け取った第 1の信号に応答する手段と、受け取った命令の代わりに 実行すべき2次的な命令を、各プロセッサの位置でロー カルに生成するために各プロセッサの中に含まれる手段 であって、前記生成が、受け取った初期命令及びそのブ ロセッサが前記プロセッサグループに属することを検出 した結果に基づいている。という手段からなり、各プロ セッサにおいて2次的な命令を生成し、及び実行する装

> 【請求項10】各プロセッサが、コントロール回路手段 から初期命令及び第1の信号を並列に受け取る、請求項 9 記載の装置。

> 【請求項11】 更に、選択されたプロセッサのグループ に属するプロセッサによって生成される命令に関連する 第2の信号ライン手段と、各プロセッサに含まれ、受け 取った命令の代わりに実行すべき2次的な命令を各プロ セッサにおいてローカルに生成するための手段であっ て、前記生成が更に、受け取った初期命令及びそのプロ セッサが選択されたプロセッサグループに属することを 検出した結果に加え、前配第2の信号に基づいてなされ る、という手段からなる請求項9記載の装置。

> 【請求項12】各プロセッサが、共通パス手段を通して 前配第1の信号及び前配第2の信号を並列に受け取る、 請求項11に記載の装置。

> 【請求項13】前配ローカルな2次的な命令の生成に は、受け取った命令を新しい情報によって置き換えるこ とを含み、それが、プロセッサアレー手段の選択された プロセッサによって実行すべき新しい命令を生成するた めに、前記第2の信号に依存している請求項11に記載 の装置。

> 【請求項14】第1の信号が複数のプロセッサグループ を特定し、第2の信号が各プロセッサグループに属する プロセッサによって生成される命令にそれぞれ関連し、 各プロセッサにおける2次的な命令のローカルな生成 が、受け取った命令、そのプロセッサが属していると検 出されたプロセッサグループ、及び対応する第2の信号 に基づいている請求項11に配載の装置。

【請求項15】前配第1の信号及び前配第2の信号が、

レーをコントロールするアドレスパスへ送られる、請求 項9, 10, 11, 12, 13, 及び14のいづれか1 つの項に記載の装置。

.3

【請求項16】同一の初期命令が第1のプロセッサグル ープのすべてのプロセッサに送られる複数の第1のプロ セッサグループに分割された、プロセッサ手段のアレー から成る並列コンピュータシステムにおいて、前記第1 のプロセッサグループのプロセッサの中の多数の第2の プロセッサグループを特定するとともに、第1プロセッ サグループのそれぞれのプロセッサに共通に送られる第 10 1の信号手段と、前記第1のプロセッサグループの各第 2のプロセッサグループに属するプロセッサによって生 成される命令に関連し、第1のプロセッサグループ内の 各プロセッサに共通に送られる第2の信号手段と、各プ ロセッサに含まれ、受け取った命令の代わりに実行すべ き2次的な命令を各プロセッサにおいてローカルに生成 するための手段であって、前記生成が、第1のプロセッ サグループによって受け取られる初期命令、そのプロセ ッサが第2のプロセッサグループに属することが検出さ れた結果、及び前配第2のプロセッサグループに対応す 20 る前記第2の信号に基づいてなされる、という手段から なる、ことを特徴とするアレーのプロセッサを動作させ

# 【発明の詳細な説明】

[000.1]

【産業上の利用分野】本発明は複数のプロセッサからな る並列プロセッサに係り、とくに一度にいくつもの命令 を同時に生成しかつ実行するために単一命令流(single instructionstream) を用いる並列コンピュータに好適 な並列プロセッサに関連する。

[0002]

【従来の技術】従来のコンピュータシステムは、プログ ラムメモリからの単一命令流の中から一度に一つ与えら れる命令を実行する単一のプロセッサ(中央処理装置-CPU) から構成されていた。これは逐次型単一プロセ ッサ・アーキテクチャ (フォン・ノイマン型) として知 られている。

【0003】このようなアプローチはつい最近までは成 功していたが、計算に対するニーズが絶え間なく増大し たために、コンピュータ設計者によって新しいアーキテ 40 クチャの実験が行なわれてきている。これらの実験で は、単にプロセッサ自体の性能を改善するだけでなく、 いわゆる高度並列アーキテクチャまたは大規模並列アー キテクチャと呼ばれているように非常に多くのプロセッ サを結合することによって、主として計算速度及びスル ープットの向上が追求されている。このようなアーキテ クチャでは、計算の仕事は、命令を同時に実行する多数 の処理エレメントに配分される。このようなアプローチ は非常に望ましいものであると認められている。これに

(C. Mead and L. Conway) による "VLSシステム入 門"(Introduction to VLSI Systems) (Addison Wesle y, 1980, pp264-265 and 273)及びそこで引用されてい る参考文献、さらにW. ヒリス (W. Hillis) による "コネクション マシーン" (The Connection Machin e) (The MIT Press, 1985, pp3-6) 及びそこで引用さ れている参考文献を参照。

【0004】さらに、より利用価値の高いアーキテクチ ャとしては、MIMD (Multiple-Instruction Multipu le-Data:複数命令複数データ)が従来からの技術とし てある(例えば、ホワングとプリッグス(Hwang & Brig gs) による "コンピュータアーキテクチャと並列処理"

(Computer Architecture and Parallel Procssing) (M cGraw-Hill, 1984, p.26参照). これはいくつかの命令 の流れが複数のプロセッサエレメントへ送られ、このエ レメントは同時にいくつかの命令を実行するようプログ ラムされている。これにより遊んでいるプロセッサの数 をかなり減らすことができ、並行性 (Concurrency) が 向上する。また、潜在的に高い計算速度が達成可能であ

【0005】しかしながらMIMDアーキテクチャにつ いては、異なる命令相互接続バスを、プロセッサアレー の中の、異なる複数組のプロセッサに配線することに関 する問題に直面することになるので、コンピュータ設計 者は、いまだに魅力的とは感じていない。また、プロセ ッサをコントロールするマイクロコントローラは、より 多くの命令信号を同時に生成しなければならないので、 設計がより複雑となる。このため、MIMDアーキテク チャの大規模の並列コンピュータは、現段階ではきわめ て複雑な装置とならざるを得ない。

【0006】このため、最近まで使用されていた大規模 並列コンピュータの多くは、いわゆるSIMD (Single -Instruction Multi-Data:単一命令複数データ)と呼 ばれる種類に属している。このSIMDアーキテクチャ においては、非常に多くのプロセッサをコントロールす るという問題は、プロセッサアレーを構成する全てのブ ロセッサに同一の命令を送ることによって単純なものと されている。同時に、場合によって異なるローカルなデ ータの組 (初期データ及び中間結果) がそれぞれのプロ セッサエレメントにおいて存在することが許されてい る。この種の並列コンピュータはよく知られている。例 えば、前述のホワングとブリッグス (Hwang & Briggs) による "コンピュータアーキテクチャと並列処理" (Co mputer Architecture and Parallel Processing) (Mac Graw-Hill, 1984, p.24) を参照。またThinking Machin e Inc. の Connection Maching CM-1 (前述の文献 "The Connection Machine", The MIT Press, 1985, p.21参 照)及びMasPar の MP-1(ジェイ・アール・ニコルズ (J. R. Nickols) による"The Design of the MasPar ついては、例えば、シー・ミードとエル・コンウェイ 50 MP-1: A Cost-Effectively-Parallel Computer", Pro

(4)

特開平4-291659

J

c. Compcon Spring 1990, pp.25-28参照) などはこの範疇に含まれる。

【0007】図12は、命令の単一の流れによって駆動 される並列処理集積回路のアレーを用いた従来の並列コ ンピュータシステムを図式的に示すもので、ダブリュー ・ヒルス (W. Daniel Hills) 他による「並列プロセッ サ/メモリ回路」という名称の合衆国特許4,709,327 (1987年11月24日発行) に記載されているもの である。この図において、並列コンピュータシステム は、汎用コンピュータ710、マイクロコントローラ7 10 20、及びプロセッサアレー730から構成されてい る。プロセッサアレーは、集積回路として与えられた多 数のプロセッサ735からなり、それぞれが接続用のネ ットワークによって相互に接続されている。コンピュー タ710は高級言語でプログラミングを行うホストとし て使用され、双方向のパスを介してマイクロコントロー ラ720をコントロールする。このマイクロコントロー ラ720はパス722を介してプロセッサアレー730 に対して命令の単一の流れを与える。同時にこのマイク ロコントローラ720は、アドレスパス724によって 20 プロセッサアレーにアドレス情報を与える。このアレー の状態は単一のライン726を介してマイクロコントロ ーラ720によってサンプルされる。このプロセッサア レーの中の全てのプロセッサが、マイクロコントローラ 720から送られて来る同一の命令を実行する。これは 典型的なSIMDアーキテクチャの例である。

【0008】SIMD並列アーキテクチャはプログラミングの簡単さやコントローラーの設計という点で有利であると共に、同一の組のワイヤー(命令ピットを伝達する)がアレーの中の全てのプロセッサに接続されるの 30で、マイクロコントローラからプロセッサアレーへの配線の点についても便利である。このようなプロセッサエレメントは、しばしばマイクロコントローラによって駆動されるプロセッサアレーとして構成される。

### [0009]

【発明が解決しようとする課題】SIMDアーキテクチャの不利の点の一つは、命令流内の現在の命令を実行しないようにすべき一部の複数のプロセッサは(これは、アルゴリズムのアレーへのマッピングによって定まる)、一時的にその命令に応答しない状態にしなければ 40 ならないことである。通常、この目的のために現在の命令が伝えられるのに先立ってそれらの一部のプロセッサの各々内のマスクレジスタに、そのプロセッサをイネーブルにしたりディセーブルにする情報を選択的にロードしているが、この手続はかなりのオーバーヘッドがある。

【0010】さらに、現在の命令を実行しないプロセッサが増大すると、リソースの有効利用の点で、窒ましくない。

【0011】本発明の目的は、単一の命令流を供給され 50 の数は一例にすぎない。

るプロセッサアレイの一部のプロセッサをより簡単な方法で、非応答状態とすることのできる方法およびそのための並列コンピュータシステムを提供することにある。

6

【0012】本発明の他の目的は単一の命令競を供給されるプロセッサアレイの一部のプロセッサの各々により異なる命令を実行させられる、並列プロセッサシステムを提供することにある。

【0013】本発明のさらに他の目的は、複数の命令流の一つの命令流がそれぞれ供給される複数のプロセッサグループからなるいわゆるMIMD形式の並列プロセッサであって、各グループ内のプロセッサの一部のプロセッサを、そのグループに供給される命令流の各命令に応答しないかあるいはその命令とは異なる命令を実行する状態に、容易に変更する方法とそのための並列プロセッサシステムを提供することにある。

#### [0014]

【課題を解決するための手段】プロセッサアレイ中の各プロセッサにおいてマイクロコントローラから送られるたった一つの一次命令から、別の命令が生成でき、複数の命令を結果的に並列に実行でき、遊んでいる状態にあるプロセッサを少くできる。

【0015】また、一部のプロセッサの各々において、 上記一次命令に応答しないようにできるので、このため のオーバヘッドが少なくとすむ。

【0016】前述の、及びそれ以外の目的、特徴、発明の利点は、以下に続く、添付した図面に示される本発明の好ましい具体例の詳しい説明から明かとなるだろう。 【0017】

【実施例】本発明の実施例は、読者の便宜を考慮して以 下のセクションに分けて説明する。

【0018】○システムの一般的な説明

○プロセッサ47の一般的な説明

〇アドレス一致ユニット (ACU) 52

Oメモリインターフェース (MEMIF) 53

〇アドレス一致回路81

〇命令修正回路82

〇変形例

〇他の実施例

○システムの一般的な説明

図1は、単一の集積回路上に形成されたプロセッサアレーを用いた、本発明による並列コンピュータシステムを 概略的に示したものである。これはSIMDアーキテク チャによるものである。図1に示すように、本発明は、 コンピュータ20、マイクロコントローラ30、相互に 接続されたプロセッサ47のプロセッサアレー40、及 び外部メモリEXTMEM50からなるコンピュータシ ステムで実施されてよい。

【0019】ここには、アレイ40内のプロセッサとして5行5列に配列されたプロセッサを示しているが、この数は一例にすぎない。

【0020】コンピュータ20は汎用ホストコンピュー タ又はワークステーションである。このコンピュータ用 のプログラムはユーザーの便宜を考慮して高級並列言語 によってプログラミングされる。 コントロールバス21 は、コンピュータ20とマイクロコントローラ30との インターフェース用として使用する。 マイクロコントロ ーラ30は、コンピュータ20から与えられる高級首語 の命令の各々に応答して、プロセッサアレー40の駆動 に使用される一連のマイクロ命令を生成する。マイクロ コントローラ30は命令パス(I)31を介して、プロ セッサアレー40内の全てのプロセッサ47に、生成し た一連のマイクロ命令を順次与える。各マイクロ命令は 個々のプロセッサによって同時に実行されるべき同一の 演算を規定する。以下ではマイクロ命令を単に命令又は 一次命令と並ぶことがある。双方向のデータバス (D) 32は、アレー40内のすべてのプロセッサに接続さ れ、個々のプロセッサへのデータの入力及びそこからの データの出力用に使用される。アドレスパスA39は、 プロセッサアレー40に対してアドレス情報を与える。 アドレスパスの構成についての詳しい説明は、後述す 20 る。ステータスパス36も、全てのプロセッサに接続さ れ、プロセッサアレー40の個々のプロセッサの現在の 状態を表わすステータス情報をマイクロコントローラ3 0に与えるのに使用される。このステータス情報は、た とえば、全てのプロセッサにおける演算の終了(算術、 ロジック又はデータルーチング)をマイクロコントロー ラ30が検出するのに使用する。このステータス情報を 利用するためには、マイクロコントローラ30によって プロセッサアレー40に、それぞれのプロセッサのステ ータスフラグの値に依存して異なる動作を指定する、条 30 を判断するようになっている。 件付きのマイクロ命令を伝達し、この命令により、全て のプロセッサから、それぞれ内のステータスフラグを適 当なタイミングでステータスパス36上に出力させる。 こうして、各プロセッサのステータス情報をマイクロコ ントローラ36に通知する。マイクロコントローラ30 は、全てのプロセッサからのステータスフラグの値に依 存して次のマイクロ命令を選択する。我々の好ましい具 体例では、ステータスパス36は、プロセッサアレー4 0に対し共通に設けた1ビットのバスであり、アレー4 0 の中の全てのプロセッサのそれぞれの1 ピットのステ 40 ータスフラグがワイヤードANDされ、その結果信号S がステータスパス36に出力される。

【0021】プロセッサアレー40によって実行される 並列プログラムに対する初期及び中間のデータは、各プ ロセッサの内部 (ローカル) メモリ (INTMEM) 4 3 及び各プロセッサからアクセス可能な、全てのプロセ ッサに共通に設けた外部メモリ (EXTMEM) 50に 保持される。外部メモリの必要性は、各プロセッサ47 は好ましくは集積回路とされるので、その内部ではRA

ory)として使用できる空間が限られているという事実 に基づいて生じる。また、このように集積回路技術を用 いると、外部に低コストで大きなメモリを設ける方がよ り簡単となる。この外部の大きな実体的なメモリは、例 えば仮想メモリの配置で、全てのプロセッサ47によっ て共有され、これにより外部メモリのセグメントはそれ ぞれのプロセッサに割り当てられる。できればこれらの セグメントは、いくつかのプロセッサから外部メモリの 同一セグメントへのアクセスの衝突を避けるために、互 いにオーバーラップしていないことが望ましい。

【0022】マイクロコントローラ30は読み出し/書 き込み動作を行うときに、適当なアドレスの配置によっ て、これらのプロセッサの内部レジスタ、内部メモリ4 3、又は外部メモリ50を選択することができる。

【0023】外部メモリ50はデュアルポートタイプで ある。これにより、読み出し及び書き込みの動作は、マ イクロコントローラー30と、プロセッサアレー40の 両方から行うことができる。このようなことを可能とす るために、データパス (D) 32もアドレスパス (A) 39も外部メモリ50に対しても使用できるようにす る。同時にプロセッサアレー40は、データを外部メモ リ50に与えるための独自のデータパス(EXTD)5 4B、及び独自のアドレスパス (EXTA) 54Aを有 している。マイクロコントローラ30とプロセッサアレ イ40の両方から同時に外部メモリ50へ書き込みを行 うという危険をなくすために、ステータスパス36をサ ンプリングすることによって、マイクロコントローラ3 0はプロセッサアレー40が現在実行している動作の特 性及び状態を知り、外部メモリ50へのアクセスの可否

[0024] このようなSIMD (Single-Instruction Multiple-Data) アーキテクチャでの並列コンピュータ システムでは単一命令流がプロセッサアレー40の中の 全てのプロセッサに伝達されるので全てのプロセッサ4 7に実行させるための命令を与えるのに、プロセッサア レー40の中の全てのプロセッサ47にたった一組のワ イヤー(命令バス 1)だけが接続されているので、構成 が簡単になることが保証される。

【0025】従来技術では、しかしながら、プログラマ ーには、二つの異なる命令を同時に実行するようにプロ セッサアレー40の中の異なる二つのプロセッサ47を プログラミングするという選択の余地はない、選択でき るのは、伝達した命令を実行するか、又は何も実行しな い(動作が行われない)かだけである。しかも、それぞ れのプロセッサが現在の命令を実行するか否かは、この 命令の発行前に、各プロセッサの命令マスクレジスタ (図示せず) に、1 (そのプロセッサでの命令の実行を イネーブルにする)又は0(そのプロセッサでの命令の 実行をディセーブルにする、又は勁作を行わない)の値 M (Random-Access Memory) 及びROM (Read-OnlyMem 50 を書き込む必要がある。この従来技術ではこのような勁

(6)

特開平4-291659

作モードの指定のためのオーバーヘッドが大きくなり、 命令の実行の際の並行性が減少し、従って全体のスルー ブット(単位時間当りに実行される命令の数)が小さく

【0026】本実施例ではこの点を改善し、SIMDの 構成の並列プロセッサシステムにMIMDの性能と柔軟 性とを与えるために、システムのアーキテクチャに対し 以下のような独創的な変更を行った。すなわち、少くと も一部のプロセッサの各々は、マイクロコントローラ3 0から伝達される(以下これを一次命令と呼ぶことがあ る)から別の命令(以下これを2次命令又は導出命令と 呼ぶ)をローカルに生成し実行するように、再構成され

【0027】この2次命令は、プロセッサによって異な りうる。また、この2次命令が何の操作も実行しない命 令(NOP命令)のこともある。この再構成は、一つの 具体例では、プロセッサアレー40の中の個々のプロセ ッサ47に記憶された、その位置に関する情報及びアド レスパス39によって伝えられるアドレス情報とAMO DE信号線34により与えられ動作モード情報に基づい て決定される。プロセッサアレー40に対して、いくつ かの動作モードが使用可能である。これらの動作モード の間の選択は、アドレスモードバス (AMODE) 34 によってなされる。アドレスサンプリング信号NEWA 46は、マイクロコントローラ30によってプロセッサ アレー40の中のアドレスラッチ (99 (図6)) に対 して与えられる。

【0028】読者に対して我々の最終目的の考えを予め 与えるために、提案した回路の一つの主要な動作モード を理解するのに役立つ図式表示として図11を使う。こ 30 のモードでは、命令パス (I) 31を介してマイクロコ ントローラ30から伝達された単一の一次命令から出発 して、異なるプロセッサにおいて別々の命令を生成する ことが可能である。図11に与えられた例図では、簡単 のために 8 × 8 個のプロセッサだけを持つプロセッサア レーを考える。401はプロセッサアレー40の中で同 時に実行される命令のマップである。 図11に示した場 合において、オリジナルの命令(EX-OR)から、+ (加算) 475及び- (減算) 477という二つの2次 (導出)命令が生成される。図11を見ると分かるよう に、プロセッサアレー40は二つのゾーンに分けられ、 それぞれのゾーンの中のプロセッサでは同一の導出命令 を実行する(+又は-)。さらに図10は、本実施例の 他の主要なモードで実行される命令のマップを示すもの で、一部のプロセッサにおいて、EOR命令を実行さ せ、他はNOP命令を実行させることができる。

【0029】我々の考えに焦点を与えるために、このコ ンピュータシステムにおけるアドレス機構の動作の方法 についていくつかの仮定を行う。まず、各プロセッサの

TMEM) 50に対するアドレス動作には、アドレスバ ス(A) 39が独占的に使用されると仮定する。 言い換 えると、命令パス(I) 31を介してプロセッサアレー 40によって受け取られる一次命令には、これらのメモ リをアドレスするための情報は含まれていない。この一 次命令の唯一のアドレス能力は現在のA L U又は I / O に関する動作に関与する、各プロセッサの内部レジスタ を選択することに限定される。

10

【0030】更に、アドレスパス(A)39はその全て のピットが全てのプロセッサ47に接続されている、す なわちプロセッサ47の外側ではアドレスのデコード動 作は一切行われない、と仮定する。しかしこれは強制的 な条件ではなく、変形例のセクションにおいて、プロセ ッサによって既にデコードされたアドレスが到達する場 合にこの発明がどう適用されるかについて述べる。

【0031】上記の仮定を調べることによって、アドレ スパス(A)39は全てのプロセッサに接続されている ものの、プロセッサアレー40がメモリ参照をしない命 **令(全てのプロセッサに伝達される)を実行していると** きには、実際上使用されていないということが理解され る。このことは多くの命令について起こりうる。そして このアドレスパスが、実質的に時分割された多機能パス となり得るという考えが導かれる。すなわち、アドレス パス(A)39の内容がメモリ参照と関係していない限 りは、これをデコードするための適当な回路が存在する ならば、他の目的のために自由に使用することができ る。我々の発明においては、このバスを、元々は一つの 命令だけを持つアーキテクチャ(SIMD)において後 述するように、複数の命令の流れを生成するための情報 を各プロセッサに与えるのに使用することにした。

【0032】プロセッサアレー40がメモリ参照を必要 としない命令を実行しているタイムスロットではアドレ スパス(A) 39を直接インターラブトできるとはい え、伝達される一次命令がこのようなメモリ参照を含ん でいるときには、この様なことは不可能である。このよ うなときにはアドレスパス (A) 39の内容は、どのメ モリ位置をアクセスするかを決定するのに深く関連して いる。

【0033】このような二つの使用態様を実現可能とす るために、アドレスパス (A) 39上のアドレスは、内 部メモリ【NTMEM43又は外部メモリEXTMEM 50に分散される前にラッチされる(図6アドレスラッ チ99)。このことは次のセクションで説明する。

【0034】図2は図1を理解するのに役立ついくつか の波形を示している。この図には、マイクロプロセッサ 30によって生成される信号のタイミングダイアグラム が示してある。システム全体の同期を取るための基本と なるクロック信号PHI1及びPHI2も同時に示す。 これは互いに重ならない2相クロックで、図に示すよう 内部メモリ(INTMEM)43及び外部メモリ(EX 50 に5乃至10MHzの範囲の周波数を持っている。

(7)

11

【0035】アドレスパス(A)39上の情報は6クロ ックサイクルの周期で更新される。これらの内容はプロ セッサ内部レジスタ又は内部メモリ43又は外部メモリ 50に対するアドレス情報として、または後述のアドレ ス一致回路によって使用されるプロセッサ選択のための アドレス情報として、択一的に解釈される。

【0036】一次命令は命令パス(I)31によって伝 達される。命令パス(I) 31はクロックサイクルが7 から12の時に有効な値(valid)となり、クロックサ (すなわち×印で示すドントケア) となる。なお、図 2 においてクロックサイクルは、信号の右端の位置で数え る。この一次命令に対するストローブ信号としてマイク ロプロセッサ30は、クロックサイクル8から11及び 20から23において、ハイ(すなわち1。この文書全 体を通して正論理であると仮定する)のときにアクティ ブとなる命令ストロープ信号 (INSTREN) 44を与え る.

【0037】アドレス情報に対するストロープ信号とし クサイクルが5の間有効な値となるアドレスストロープ 信号 (NEWA) 46を与える。

【0038】アドレスパスA上のアドレス情報の解釈を 定義するアドレスモード信号 (AMODE) 34 (後述 するように、好ましい具体例では2ピットからなる) は、クロックサイクル7から12及び19から24にお いて有効な値となる。

【0039】ここで提案されたマイクロコントローラ3 0の動作は、そのコントローラの実現の仕方には依存し とする有限状態機械(オートマトン)のような通常の方 法によっても実現することができる。このようにコント ローラ30の実現の仕方自体は、本発明の目的ではな 11.

【0040】本実施例では、とくに断わらない限りマイ\*

\*クロコントローラ30から命令パス(I)29を通って 到達する一次命令はピット幅が29ピットで、ピット0 が最下位ピット、ピット28が最上位ピットであると仮 定する。同様に、アドレスパス(A)39のビット幅が 10ビットであると仮定するが、本発明はこれらの数値 以外にも適用されることは言うまでもない。

12

【0041】〇プロセッサ47の一般的な説明 図3は、図1のプロセッサアレー40の1つのプロセッ サ47の具体例を図式的に示したブロックダイアグラム イクルが1から6及び13から18までが無関係な値 10 である。このプロセッサ47は、他のプロセッサととも に単一の集積回路チップ上に設けられている。プロセッ サアレー40はいくつかのプリント回路基板を含んでお り、このそれぞれは数千のプロセッサからなる。このよ うにして数万のプロセッサを含む大規模並列アレーが構 成される。このことは従来の技術から知ることができる (例えば、前述の W. Hillis の "The connection mach ine" で説明されている。また、前述したThinking Mach ine Corp.による「Connection Machine. The MIT Pres s, 1985, p.21, 及び前述の J. R. Nickols の "The De てマイクロコントローラ30は、図に示すようにクロッ 20 sign of the MasPar MP-1: A Cost-Effectively-Parall el Computer"において説明されている、MasParによるM P-1などを参照)。

> 【0042】プロセッサ47は二つの主要なブロックで ある処理ユニット (PU) 42と内部メモリ (INTMEM) 43とに分割されている。処理ユニット42は更に3つ のブロック、メイン処理ユニット (MPU) 51、アド レス一致ユニット (ACU) 52、及びメモリインタフ ェース(MEIF)53に分割されている。

【0043】マイクロコントローラ30によって伝達さ ない。このコントローラ30は、ROMやPLAを中心 30 れる一次命令および後述する方法により生成される二次 命令のフォーマットには、表1に示すように、以下の図 4の回路に関連するフィールドが含まれている。

> [0044] 【表1】

表 1

#### INSEL OUTSEL SHIFT TO F REGSEL INEN OEN ALU

【0045】ALU:現在の全命令に基づいて、プロセ 40 ッサの算術論理回路 (ALU) 67 (図4) によって実 行される機能を選択する。

【0046】INSEL:ALU67上で演算を受ける べきオペランドの、入力セレクタ66による選択勁作を 指示する.

【0047】OUTSEL: 出力セレクタ68によって パス101及び103の方へALU67の結果が転送さ れる方向を指示する。

【0048】SHIFT:シフター65において行われ るシフト勁作の方向及び種類などを選択する。

- 【0049】 「0:プロセッサが外部通信に使用するた めの I / Oポート (61-64) を選択する。
  - 【0050】F:現在の動作の過程で使用する条件フラ ッグ69を選択する。

【0051】REGSEL:現在の動作の過程で使用さ れるべき内部レジスタ71を選択する (通常1つ又は2 つのレジスタが一度に選択される)。

【0052】 INEN: 入力イネーブル信号181 (図 3) そのものを指定するフィールドで、これが1のとき データバス(D)32とプロセッサ内部パスL(図6) 50 間でのデータ入力転送をイネーブルとする。

(8)

特開平4-291659

7.3

【0053】 OEN:出力イネーブル183 (図3) そのものを指定するフィールドで、これが1のとき上記二つのバス間での出力データの転送をイネーブルとする。

【0054】図4は、図3のブロックダイアグラムにおいて示されたメイン処理ユニットMPUのブロックダイアグラムである。このメイン処理ユニットMPUの設計は、従来の技術から知ることができる(例えば、前述のC. Mead と L. Conway による "Introduction to VLSI Systems", Addison Wesley, 1980, p.169参照)ので、この構成について多くは説明するつもりはない。このユニットのアーキテクチャは2つの内部データパス、Hパス(HB)101とLパス(LB)103を中心としている。内部命令パス(IIB)104は、命令パス(I)32(図1、3)上に存在する一次命令又はそれからアドレス一致回路ACUによって後述のように二次命令が導かれたときにはその2次命令をそのアドレス一致回路から受け取る。

【0055】メインのオペランド処理は算術論理ユニット(ALU)67において行われる。処理の種類は、パスIIBから線135を介して与えられるALUに対す 20る入力オペランドは、2つの内部データパス(HB)101と(LB)103から入力セレクタ66によって与えられる。オペランドの選択は、内部命令パスIIB上に受け取った一次命令又は2次命令の中のINSELフィールドピット124によって行われる。行く先となるパスの選択は、受け取った一次又は二次の命令の中のOUTSELフィールドのピット139によって行われる。

【0056】シフター65は、内部データバスHB, L Bのいずれか一方から受け取ったデータをシフトしてA 30 LUの1つの入力に与えることができる。シフトの方向(左、右)、シフトする量(ビット単位で)、及び使われているキャリーの種類は、内部命令パス11B上にある命令のSHIFTフィールドによって指示される。

【0057】各プロセッサは4つの入出力ポート1-4 (図4では、表示が混み合うのを避けるために、二つのポート61,64だけを示している)を介してプロセッサアレー40の他のプロセッサ47と接続されている。簡単化のために、入出力ポート1~4を介したプロセッサ同士の接続は、2次元的な網目状(mesh)のネットワークを形成するようにデータリンク群114により行う。このようなネットワークでは、各プロセッサは東西南北方向の4つの一番近い隣同士とのみ接続される。したがって、データリンク群114は4つのデータリンク101,……104からなる。しかし、これよりも複雑な接続パターンも採用してもよい。形成されるネットワークの形状は本発明の本質または応用に影響を与えることはない。

【0058】 設計の簡単化のために、ALUのオペランド及び結果は1ビットとする。同様の理由で、またプロ 50

セッサ間の書き込みを最小に維持するために、プロセッ サ間のデータリンク群114内の各データリンクはシリ アルな(1ピット幅の)通信リンクを用いる。

【0059】この好ましい具体例においては、これらの データリンク101, ……104は双方向、すなわちそ のプロセッサへ、あるいは及びそのプロセッサからのい ずれの方向へもデータを流すことが可能となる。これら の入出力ポート61……64の各々は、内部データバス (HB) 101上に置かれたいろいろのデータソースか ら信号ライン113を介してデータを受け取ることがで きるとともに、内部データバス(LB)103に、信号 ライン112を介してデータを送出することもできる。 このようにして他のプロセッサからのデータは、例えば データリンク104、入出力ポート61、ローバス(L B) 103、及び入力セレクタ66を含む経路を通し て、ALUへ入力される。同時に、ALUの演算結果 は、例えば出力セレクタ68、ハイパス (HB) 10 1、入出力ポート61、及びデータリンク101を含む 経路を通してその、別のプロセッサの出力される。内部 命令パス IIB (104) 上にある命令は信号ライン1 11を介していずれかの入出力ポートたとえば、61に よって受け取られ、この命令のIOフィールドによって その I / Oポート (今の例では61) によって実行され る転送の種類が規定される。

【0060】ALUによって実行される演算は、フラッ グ(条件)レジスタ69の内部に従って決められる。こ のレジスタ69はHパス101から更新することがで き、一方、現在の値を、条件テストのためにそのプロセ ッサのレパス103に出することも、あるいは他のプロ セッサとの間でのインターロックされた条件テストのた めにレバス103と入出力ポートたとえば61を介して 他のプロセッサに転送することもできる。フラッグレジ スタ69から現在選択されているピット、及びそのピッ トの転送先は、内部命令パスIIB(104)上にある 命令のFフィールド149によって記述される。フラッ クレジスタ69のある1ビット(SI)36はプロセッ サの個々の状態ピットを表す。この状態ピットSiは、 算術、論理、又はルーティングなどの演算の終了時にセ ットするようにしてもよい。 我々の装置では、SIMD マシンではもっとも良く使用される構造すなわち、プロ セッサアレー40のすべてのプロセッサの状態ピットS 1のグローバルなワイヤードANDを用い、これによっ て得られる全体の状態ピットSでもってグローバルな同 期を実現することが可能となる。マイクロコントローラ 30は、例えばグローバルな状態ピットSをサンプリン グする結果として、全てのプロセッサ47が自分の現在 の命令を実行し終え、それぞれの状態ピットSIを立て るまでは、新しい命令をプロセッサアレイ40に伝達し ない。

【0061】各プロセッサ47はいくつかのスタックさ

15

れたレジスタ(この好ましい具体例ではそれぞれ1ビット幅)からなる内部レジスタ群(INTREG)71を有しており、これらは中間のデータを格納することができる。内部レジスタ群71はHパス101から更新することができるとともに、入力セレクタ66を介してALU67へ転送するために、Lパス103に現在の値を読み出すこともできる。内部レジスタ群71から現在選択されているレジスタ及びそのレジスタに関するデータの転送の方向は、内部命令パスIIB(104)上にある命令の中のREGSELフィールドのピット138に記 10 述されている。

【0062】 〇アドレス一致ユニット (ACU) 52 図5は、図3のブロックダイアグラムの中に示されたアドレス一致ユニットACUの内部ブロックダイアグラムである。このユニットを構成するブロックは、アドレス一致回路81、命令修正回路82、プロセッサID84、及びアドレス一致マスク(ACM)85である。

【0063】プロセッサID(識別)レジスタ84は、 各プロセッサ47の物理的なアドレスを含むいくつかの 比較参照値を格納するのに使用するローカルメモリであ 20 る。これは図5では読み出し/書き込みができるレジス タとして示してあるが、ROM(これはプルアップ/プ ルダウン抵抗やヒューズのようなものを含めていろいろ の実現形態がありうる)のような書き込みができないも のでもよい。図5では、このレジスタとして実際には小 型のRAM(ランダムアクセスメモリ)が使われる。こ の好ましい具体例では、プロセッサのレバス103上の データが双方向バス168を介して替き込まれる。内部 命令パス I I B (104) から導かれるアドレスライン 167によって指定される位置における、プロセッサ 1 30 Dレジスタ84内の値PROCIDは、ライン169を 介してアドレス一致回路81へ出力される。プロセッサ 1 D レジスタ84 に対して実行される動作(読み出し、 書き込み)の種類は、命令パスI (31)から導かれる コントロールライン170の内容によって指示される。 図26は、プロセッサIDレジスタ84の入出力信号を 示す。図5に関して説明したように、これはRAMから なる。データ入力Din168は主処理ユニット51の ローパスLB (103) から与えられる。命令内のビッ トINEN181 (図6) がハイのとき、トライステー トドライパ91がイネーブルされ、データはこのパス上 で有効となる。このレジスタ内の適当な位置の選択は、 入力Addr (167) によりなされ、この入力は、命 令パスI (31) のREGSELピットから与えられ る。 R/W信号170命令パスIから与えられる。 負の 書込みパルスの立上がり時に、このレジスタの出力Do u t がラッチされ、信号PROCID (169) を次の 書き込みまで与えられる。ここで我々が強闘したいこと は、プロセッサIDレジスタ84内の比較参照値が、プ ロセッサアレー40内のそれぞれのプロセッサ47に対 50 53

して固有のものだということである。場合によっては、これらの比較参照値は単にプロセッサの物理的なアドレスとすることもできるし、別の場合にはコンピューターシステムの実行開始の段階で、又はある命令を実行するのに先だって、マイクロコントローラ30によってロードされる変数とすることもできる。このように、各プロセッサ内のプロセッサIDレジスタ84の内容がそのプロセッサに固有のものであるということは、各プロセッサ40が受け取る命令の最終的な内容を決めるのに決定的に重要である。このプロセッサIDのレジスタ84は

16

メモリマップされていなくて(すなわち各プロセッサ内の内部メモリ43(図1)をアドレスするのに使用するアドレスライン39によってアドレスされていなくて)、内部命令パス104上にある令令の中のREGSELフィールド内のピットからなるアドレス線167によって選択される。

【0064】PROCIDライン169上に与えられた 比較参照値は、アドレスパス39上にあるマイクロコン トローラ30から与えられた、アドレスワードの現在の 値と比較される。この比較はアドレス一致回路81にお いて行われる。アドレス一致回路81の動作は、マイク ロコントローラ30から線34を介して与えられるAM ODE信号34によって規定される。

【0065】この信号AMODEの詳細は後述する。この比較はピット毎に送われ、これらの比較結果に対して最終的に論理ANDが行われる。

【0066】 Aパス上のアドレスワードとプロセッサ I Dレジスタ内の比較参照値の内、アドレス一致回路81 において比較されるべきピット部分を選択するマスクが アドレス一致マスクレジスタ85によって与えられる。 このレジスタ85にはLバス103(図4)から線18 4を介してデータが書き込まれ、そしてこの内容はライ ン185からアドレス一致回路81に読み出される。こ のレジスタ85に対する読み出し/書き込みコントロー ルライン171は命令パス」から導かれる。アドレスー 致回路81は、上記比較の結果を、内部パス165を介 して命令修正回路82に供給する。この回路は、マイク ロコントローラ30 (図1) から命令パス I (31) 上 に与えられた一次命令を、アドレスパスA (39) の選 択されたピットでもって修正する。この修正の結果がロ ーカルに有効な命令(二次命令)で、これは線163を 介して内部命令パス I I B (104) (図4) に送ら れ、その命令修正回路82が属するプロセッサの内部プ ロックに対して使用することができる。図27は、アド レス一致マスクレジスタ85の入出力信号を示す。図2 6と異なり、ここにはレジスタは一つしかないので、入 カ選択信号177のみが、命令パスI (31) のREG SELピットから与えられる。

[0067] 〇メモリインターフェース (MEMIF)

特開平4-291659

18

(10)

図6は、図3のブロックダイアグラムに示されたメモリインターフェースユニット53の内部のブロックダイアグラムである。各プロセッサ47は、内部メモリ43(図3)と外部メモリ50(図1)のいずれも使用することができる。

17

【0068】RAM及びROMが内部的に使用できる空 間には制限があるので、多くの応用においては外部メモ リ50が必要となる。プロセッサはメモリインタフェー ス53内の外部メモリインターフェース54を介して、 この外部メモリ50にアクセスすることができる。この 外部メモリインターフェース54は外部メモリ50へ転 送するデータを、Hパス101から線149を介して受 け取る。このデータは双方向の外部データバス (EXT D) 5 4 Dによって外部メモリ50と交換される。外部 メモリインターフェース54は、外部データバス54D によって外部メモリ50からデータを受け取り、線15 5とレバス103を介してプロセッサ47の内部プロッ クに転送する。データのそこへの掛き込み又はそこから のデータの読み出しのために、データの転送が行われる べき外部メモリ50内の位置(アドレス)は外部アドレ スライン(EXTA)54Aによって規定される。この ライン54Aの内容は、アドレスパス(A)39からア ドレスラッチ99、内部アドレスパス(A1)41と線 153とを介して与えられる。

【006.9】処理ユニット42(図3)を区切ったことの結果として、このメモリインタフェース53には外部メモリインターフェース54の他にトライステートデータパッファ91,92及び前述のアドレスラッチ99が設けてある。

【0070】トライステートパッファ91は双方向のシ 30 ステムデータパス(D)32からデータを受取りローバス103に転送し、トライステートパッファ92はローパス103からデータを受け取り、システムデータパス32にデータを転送することができる。これらのパッファに対するデータ転送の指示は、命令パス31上の入力イネーブル信号INEN及び出力イネーブルOENが用いられ、これらの信号は、図5に示すようにバス31の直接の枝線としてアドレス一致回路ACU内において生成され、線181、183を介して与えられる。

【0071】システムアドレスパスA (39) 上のアドレスはアドレスラッチ99によりラッチされ、内部アドレスパスA1(41)に出力され、前述のように外部メモリインタフェース54に与えられる。このラッチを指

示するアドレス更新信号NEWA 4 6 はマイクロコント ローラ30によって線46を介して与えられる。タイミ ングに関しては、図2又は図9に示すように、システム アドレスパスA (39) がシステム命令パス I (31) より先に(たとえば、クロックサイクル0で)安定とな り、その後に(たとえば、クロックサイクル5での)ア ドレス更新信号(たとえばクロックサイクル0で)NE WAの立ち上がりエッジでラッチ99にラッチされると 仮定する。システム命令パス I (31) が変化するもの はこのあと (たとえば、クロックサイクル6) からであ る。一次の命令からいくつかの二次命令を生々するプロ セスに対して更新された内容 (一致ワード) を与えるた めに、システム命令パスIと同時にシステムアドレスパ スAは、再び変化する。しかしながら、外部メモリ50 は、アドレスラッチ99からアドレスバスA1に出力さ れるアドレスに基づいてアクセスされ、システムアドレ スパスA (39) の、この2回目の変化を見ることはな

【0072】内部メモリ43(図3参照)は、この好ましい具体例ではデュアルポート型である。このことは、データがHパス101及びLパス103を介して2つのメモリ位置から同時に読み出し可能なことを意味する。しかしながら、メモリの衝突を回避するために書き込み用のデータはこれらのパス101又は103のいずれかからのみ与えられ、両方から与えられることは許されない。現在の内部メモリ43の動作は、内部命令パスII(104)上にある命令のIMEMフィールドによって規定される。読み出し/書き込みの目的でアクセスされるアドレスは、適当なメモリ位置を選択するために内部メモリ43の内部でデコードされる。

【0073】以下、アドレス一致回路81及び命令修正 回路82の設計についての詳細について述べる。

【0074】〇アドレス一致回路81

図7は、図5に示されるアドレス一致回路81の論理回路である。図7に示す好ましい具体例において、AMODE信号34はマイクロコントローラ30から与えられる2ピットの信号であり、標準的な2:4のデコーダ301において最初にデコード4ピットの信号AMODE00~AMODE11が出力される。以下の真理値投(表2)は読者の便宜を考慮してこの回路の動作を説明している。

[0075]

【表2】

(11)

特開平4-291659

表 2

| AMODE | AMODE 0 0 | AMODE 0 1 | AMODE 10 | AMODE 11 |
|-------|-----------|-----------|----------|----------|
| 00    | 1         | 0         | 0        | 0        |
| 0 1   | 0         | 1         | o ·      | 0        |
| 1 0   | 0         | 0         | 1        | 0        |
| 1.1   | 0         | 0         | 0        | 1        |
|       |           |           |          |          |

【0076】ここではアクティブ・ハイ(ハイで動作) の習慣に従う(選択された出力は論理ハイ、それ以外の 出力は論理ロー)。この表から分かるように、デコーダ 出力AMODE00~AMODE11はそれぞれAMO DE信号34が00~11のときに論理ハイとなる。

19

\*【0077】以下では、表3に示すように、AMODE 信号の値によって、プロセッサアレー40に対して定義 された構成モードを定義する。

[0078] 【表3】

表 3

| モ - ド<br>- 名 - 称 | AMODE |                | ŧ | _  | ۴  | Ø          | 黢  | 明    |
|------------------|-------|----------------|---|----|----|------------|----|------|
| SIMD             | 0 0   | これはデフ<br>SMIDに |   |    | であ | <b>b</b> , | 標準 | 的な   |
| 命令拡張             | 0 1   | この場合,<br>とみなされ |   | レス | バス | は 命        | 令バ | スの拡張 |
| プロセッサ<br>選 択     | 10    | アドレスハ<br>の選択に使 |   |    | 令の | 実行         | が可 | 能なPE |
| 命令修正             | 1 1   | 各プロセッ命令を生成     |   |    | てロ | ーカ         | ルに | 修正した |

【0079】ここで、これらのモードの定義についての 30 のに使用される。命令は修正されない。このメカニズム 詳しい説明を与える。

【0080】SIMDモード: これは、AMODE信号 が00のときのモードである。この信号値はデフォルト 値であり、このモード付標準のSIMDとしての動作モ ードに対応する。すなわち、アドレスパス (A) 39は 通常の方法で、各プロセッサ47の内部メモリ43及び 外部メモリ50をアドレスするために専用的に使用され

【0081】<u>命令拡張モード</u>: これは、AMODE信号 イムスロットにおいて、アドレスパス(A)39は命令 パス(I)31の拡張と見なされる。アドレスパス上の 信号を一次命令の一部としてデコードする、追加の命令 デコードを行わなければならない。適当なタイミングシ ーケンスについては後述する。

【0082】<u>プロセッサ選択モード</u>:これはAMODE 信号が10のときである。このモードでは、アドレスパ ス39は、マイクロコントローラ30によって命令パス (1) 31上に伝達される命令を実行すべき一部のプロ セッサを選択するための情報 (一致ワード) を転送する 50 ビット0は最下位のビットである。

は従来技術で使用されているとして前に述べたマスキン グメカニズムと対比されるべきである。その従来技術で は、命令を実行すべきプロセッサを選択するためには、 その命令がプロセッサアレー40に転送される前に、ア レー40の中の全てのプロセッサの各々内のマスクレジ スタへの書き込みを必要とするが、これはかなりの時間 を要する。しかし、本実施例ではこの書き込みの必要が なく、より速い動作が可能となる。本実施例では、かか るプロセッサの選択は、アドレスバス39の内容とプロ が01のときのモードである。このモードでは特別なタ 40 セッサIDレジスタ84 (図5) の出力PROCID1 69との一致を使う。このモードについては、後に図1 0についての説明において例示する。

> 【0083】命令修正モード:これはAMODE信号が 11のときである。このモードでは、複数のプロセッサ ゾーンが選択され、それぞれにおいて、一次命令と異な る二次命令が生成される。アドレスワードの最下位側の 10ピット、すなわち、ピット9-0は、命令修正フィ ールド又はプロセッサゾーンフィールドと定義されるい くつかのフィールドに分けられる(表4参照)。ここで

(12)

特開平4-291659

[0084]

21

【表4】

表 4

| アドレスワ<br>ード内のビ<br>ット番号 | .9-8     | 7 – 5 | 4 - 3           | 2 - 0                     |
|------------------------|----------|-------|-----------------|---------------------------|
| フィール<br>ド名             | 第 2 命令修正 | サゾーン  | 第1命令修正<br>フィールド | 第1プロセッ<br>サゾーン<br>選択フィールド |
| 表 記                    | I MOD 2  | PZ2   | IMOD1           | PZ1                       |
| 例值                     | 11       | 001   | 0 1             | 1 1 0                     |

【0085】すなわち、ピット2-0と7-5はそれぞ れ第1, 第2のプロセッサゾーン選択フィールドP2 1, P22として用いられ、ピット4-3と9-8は、 それぞれ、第1,第2命令修正フィールドIMOD1, IMOD2として用いられる。このモードでは、マイク ロコントローラ30によって命令パス I (31) 上へ伝 20 達される単一の一次命令から異なるプロセッサゾーンに おいて別々の命令を生成する。この結果、実質的にMI MDアーキテクチャがこのモードで得られる。このモー ドについては、後に図11についての説明において例示 する.

【0086】図7及び表4を参照すると、各プロセッサ のアドレス一致回路81においては、アドレスパス39 上のプロセッサゾーン選択用のフィールドPZ1、PZ 2のピットと、そのプロセッサのプロセッサ I Dレジス の対応するピットとの一致がチェックされる。この一致 チェックの結果によって、命令修正回路82が命令修正 フィールドIMOD1, IMOD2のどのピットを一次 命令の修正に適用すべきかを決定し、その決定されたビ ットでもって二次命令を生成し、ライン163を介して プロセッサの他のプロックに送付する。

【0087】アドレス一致回路81の回路レベルでの動 作を理解するためには、マイクロコントローラ30によ って発生される信号のタイミングを考慮しなければなら ない。図9は、本実施例の動作に関する信号の、より群 しいタイムチャートである。アドレスパス39は6クロ ックサイクルごとに更新される。クロックサイクル1か ら6及び13から18は、前述のSIMDモードで使用 され、アドレスパス39はこの期間ではメモリアドレス 情報(アドレスワード)を示している。この情報は各命 令サイクル (これは、命令パス31が安定なサイクルの ことであり、本実施例ではクロックサイクル7から12 までの期間あるいは19から24までの期間に先だっ て、マイクロコントローラ30から与えられるアドレス

タフェース53 (図6) 内のアドレスラッチ99内にラ ッチされる。ラッチされたアドレスは、統命令サイクル において、内部アドレスパスA1 (41)を介して内部 メモリ43又は外部メモリ50をアクセスするのに使用 される。命令サイクル (クロックサイクル?から12あ るいは19から24)において、アドレスパス39は前 述の命令拡張モード、プロセッサ選択モード、又は命令 修正モードのために使用される。たとえば、命令修正モ ードでは、このパスはすでに表4に示したような、2次 的な命令の生成に用いる情報 (一致ワード) を示してい

22

【0088】図7において、一致信号COINCO11 0 (318) は命令拡張モード (すなわちAMODE信 号が01) のとき又はプロセッサ選択モード (すなわ ち、AMODE信号が0のとき)の動作時に特定のプロ 夕84 (図5) の出力であるPROCIDライン169 30 セッサで論理ハイとなる。すなわち命令拡張モード (す なわち、AMODE信号が01のとき)には、マイクロ コントローラ30から受け取った一次命令が拡張される べきプロセッサ内でのみ、信号COINCO110はハ イとなる。プロセッサ選択モード(すなわち、AMOD E信号が10)の時は、現在の一次命令が実行されるペ きプロセッサ群に対してのみ、信号COINCO110 はハイとなる。一致信号COINCO110を生成する 回路は、排他的NORゲート311…314とANDゲ ート312…315と313とからなる。入力としてア ドレスパスAの最下位側の10ピットA0-9ピット、 第5図のプロセッサIDレジスタ84からPROCID ライン169を介して与えられるプロセッサ IDの最下 位側の対応する10ピットPID0-9及びアドレスー 致マスクレジスタ85 (図5) から線185を介して与 えられるアドレス一致マスクの最下位側の10ビットA CMRO-9を受け取る。これにより、アドレスパスA のA0-9の内の選択されたビット及びPROCIDラ イン169のPID0-9ピットの内の対応するピット が一致する(等しい)時のみ、論理ハイとなる。比較さ サンプリング信号NEWA(4.6)を用いてメモリイン 50 れるピットの選択は、ANDゲート3.1.2ANDでいる。

(13)

20

特開平4-291659

23 介し、アドレス一致マスクレジスタ85 (第5図) のA CMR 0-9ピットの値によってなされる。アドレスA 0-9とP!D0-9の各ピット位置ごとの比較結果の 内、ACMR0-9ピットの対応するピットが0(ロ 一) であるビット位置の比較結果のみが最終出力AND ゲート313によって行われる全体の比較動作に入力さ れる。ピット毎の一致は、例えばピットAOとPIDO に対しては排他的NORゲート311によって行われ る。2つのビットが等しければ、排他的NORゲート3 11の出力はハイ(1)となる。このようなピット毎の 10 比較結果は、対応するマスクピット(ACMRO)がゼ ロである場合のみ、ANDゲート312を通って、AN Dゲート313による最終の比較へと伝達される。これ 以外の場合には、ANDゲート312が最終のANDゲ ート313に対して0を伝達する。こうして、特定のプ ロセッサにおいてANDゲート313の出力が1とな る。その後出力はANDゲート383において命令スト ロープ信号INSTRENと演算され、一致信号COI NCO110が生成される。この信号は、図9に示す他 の一致信号COINC11-1 (344) 信号と同じタ イミングを有するもので、命令ストローブ信号INST RENがハイであれば間のみこの信号もハイとなりう る。以上のようにして、命令拡張モード(すなわち、A MODE信号が01のとき)には、マイクロコントロー ラ30から受け取った一次命令が拡張されるべきプロセ ッサ内でのみ、信号COINCO110はハイとなる。 プロセッサ選択モード(すなわち、AMODE信号が1 0) の時は、現在の一次命令が実行されるべきプロセッ サ群に対してのみ、信号COINCO110はハイとな る。このような一致メカニズムは、従来技術のように、 それぞれの命令の供給に先だってプロセッサアレー内の 各プロセッサのマスクレジスターに命令の実行を行うか 否かを示す情報を書き込みを行うメカニズムよりもより 商速になる。命令修正モード(すなわち、AMODE信 号が11)の動作においては、一致信号COIN11-1 (344) 及びCOINC11-2 (346) がそれ ぞれ特定のプロセッサ群において論理ハイとなる。すな わち、ANDゲート347の出力は、プロセッサの物理 的なアドレスの3つの最下位ピットが第1プロセッサゾ ーン選択フィールドPZ1の値110に等しいプロセッ サの群 (プロセッサゾーン1) に対してのみ値1を持 つ。同様に、ANDゲート348の出力は、この具体例 では、プロセッサの物理的なアドレスの3つの最下位ビ ットが第2プロセッサゾーン選択フィールドPZ2の値 001に等しいプロセッサの群(第2プロセッサゾー ン) に対してのみ値1を持つ。これらの一致信号COI NC11-1, COINC11-2の生成を理解するた めには、このモードに対応するアドレスパス39の区分 を示さなければならない。表4に関して説明したよう

の内容) は、命令修正フィールドIMOD1、IMOD 2及びプロセッサゾーン選択フィールドP21, P22 に分割される。

【0089】例をはっきりさせるために、PROCID ライン169のPIDO-9ビットはプロセッサアレー 40の中の各プロセッサの物理的なアドレスを示すもの と仮定する。また図7において、あらかじめ第1プロセ ッサゾーン選択フィールドP21のピットP210, P 211及びP212及び第2プロセッサゾーン選択フィ ールドPZ2のピットPZ20, PZ21及びPZ22 はPROCIDパス169の3つの最下位ピットPID 〇-2(すなわちこの場合はプロセッサの物理的なアド レスの3つの最下位ピット)と比較されるものとする。 しかしこれらのピット以外とは異なるアドレスワード中 のピットを比較のために割当することももちろん可能で

【0090】図7において、一致信号COINC11-1及びCOINC11-2の生成のための比較は、複数 の排他的NORゲート341, 342, 345, ……と ANDゲート347, 348によってなされる。本実施 例では、ANDゲート347の出力は、プロセッサの物 理的なアドレスの3つの最下位ピットが第1プロセッサ ゾーン選択フィールドPZ1の値110に等しいプロセ ッサの群(プロセッサゾーン1)に対してのみ値1を持 つ。同様に、ANDゲート348の出力は、この具体例 では、プロセッサの物理的なアドレスの3つの最下位ビ ットが第2プロセッサゾーン選択フィールドPZ2の値 001に等しいプロセッサの群(第2プロセッサゾー ン) に対してのみ値1を持つ。なお、第1プロセッサゾ ーン選択フィールドP21及び第2プロセッサゾーン選 択フィールドPZ2に対する、アドレスワード内のビッ トの割り当ては、互いにオーバーラップしない又は排他 的となるように、すなわち少なくとも1ビットは異なる ように注意しなければならない。ANDゲート348の 出力は最後のANDゲート381において命令ストロー プ信号INSTRENと演算されて第9回に示すタイミ ングを持つ。つまり、命令ストローブ信号INSTRE Nがハイである期間のみハイとなる。ANDゲート34 7の出力は最終のANDゲート382によって命令スト ロープ信号INSTRENと演算され、図9においてC OINC11-1に対して示したのと同じタイミングを

【0091】このようにして生成された一致信号COI NCO110, COINC11-1、及びCOINC1 1-2は、デコーダ301の出力信号AMODE00 (307), AMODE 01 (306), AMODE 1 0 (305)、及びAMODE11 (303) とともに パス165を介して命令修正回路82へ伝達される。 【0092】〇命令修正回路82

に、このモードでは、アドレスワード(アドレスライン 50 図8は、命令修正回路82の論理回路である。

(14)

特開平4-291659

25

【0093】この回路の動作は、それぞれの動作モード に分けて説明するのが最もよい。本実施例では、とくに 断わらない限りマイクロコントローラ30から命令パス (1) 29を通って到達する一次命令はピット幅が29 ビットで、ビット0が最下位ピット、ピット28が最上 位ピットであると仮定する。同様に、アドレスパス (A) 39のビット幅が10ビットであると仮定する が、本発明はこれらの数値以外にも適用されうることは 育うまでもない。

【0094】SIMDモード (AMODE信号: 0 10 0) :このモードでは命令パス31上の一次命令がその ままプロセッサ内部へ転送される。この動作は以下のよ うにしてなされる。このモードでは、AMODE00信 号がハイである。この結果この信号が入力されるORゲ ート614の出力はハイとなり、このORゲートの出力 が入力されるORゲート616の出力もハイとなる。ト ライステートのドライバー613と612には、それぞ れ命令パス31上の命令 I のピット0-1と2-28が 入力されている。これらのドライバ613,612はそ れぞれORゲート614,616の出力によりイネーブ 20 ルされる。この結果、これらは命令パス31上にある命 令を、修正しないまま、内部命令パス104(図4)に 直接接続された中間パス163へ転送する。

【0095】したがって、このモードの場合には、アレ ー40の全てのプロセッサの各々の内部命令バス104 (図4)上に現れる2次の命令は、マイクロコントロー ラ30から与えられた一次の命令と完全に同じになり、 標準的なSIMD動作となる。

【0096】<u>命令拡張モード(AMODE信号:0</u> 1):このモードでは、信号AMODE01 (306) がハイとなる。このとき、予め選択されたプロセッサに おいては、一致信号COINCO110がハイとなって いる。これらのプロセッサの選択はアドレス一致回路8 1の説明で示した一致メカニズム、すなわちアドレスパ ス39の全内容とプロセッサ [ D レジスタ84 (第5 図)の内容との間の一致メカニズムによって予め行なわ れる。選択されたプロセッサは一次命令を修正した二次 命令(すなわち一次命令にアドレスバスの内容を付加し た命令)を受け取り、アレー40の中の非選択のプロセ ッサはこの一次命令を受け取る。信号AMODE01が 40 ハイとなる結果、ORゲート614の出力はハイとな り、それによってORゲート616の出力もハイとな る。こうしてトライステートドライパー613及び61 2がイネーブルとされる。したがって、これらのドライ パは、前述のSIMDモードのときと同様に、命令パス 31上にある命令を修正しないまま、内部命令バス10 4 (図4) へ直接接続された中間パス163へと転送す る。

【0097】選択されたプロセッサに対しては、オリジ

26

いる内部命令パス104(図4)は、アドレスパス31 から追加のピットの組(アドレスパスの全ピット情報) を受け取ることになる。このピットの組は、選択された プロセッサにおいて、マイクロコントローラ30によっ て伝達されたオリジナルの命令の拡張として解釈され る。より正確にいうと、拡張された命令(選択されたブ ロセッサに対する)のピット0から28は命令パス [か らトライステートパッファ613及び612を介して与 えられ、拡張命令のピット29から38はアドレスパス Aの内容によって与えられる。追加のピットは、アドレ スパス39からパス163ヘトライステートパッファ4 92によって転送され、このパッファ492はANDゲ ート495によってイネーブルとされ、このANDゲー ト495は入力としてAMODE01及びCOINC1 10信号を有し、前者は、命令拡張モード時には全ての プロセッサにおいてハイであるが後者は、選択されたブ ロセッサ内でハイである。内部命令バス163はオリジ ナルの命令パス39よりもピット幅が広くなければなら ず(我々の装置では39ビット対29ビットである)、 そして拡張された命令の増加した能力を完全に利用する

ために、選択されたプロセッサにおいて追加のデコーデ イングを行わなければならないということが理解され る。この追加のデコーディングについては後述する。 【0098】COINCO110信号がハイのときには

(以下の図9に関する説明を参照) アドレスパス39は 純粋なアドレス情報(アドレスワード)を含んでいない が、本発明の目的である一致プロセスに関連した情報は 含んでいるのだということを指摘したい。図6の参照の 際に前に説明したように、COINCO110信号がハ イとなるまでには、「本当」のアドレス情報は既にラッ チされており、ラッチされたアドレスパスA1上に位置 している。

【0099】 プロセッサ選択モード (AMODE信号: 10): このモードではAMODE10 (305) 信号 はハイである。このモードではアレー40中の選択され たプロセッサに対するマイクロコントローラ30から伝 達された一次の命令の実行はイネーブルとされ、残りの プロセッサはディスエーブルとされる。実際我々の装置 では、選択されなかったプロセッサに対しては、処理を 何も行わない単なるダミーの命令であるNOP (No-Ope ration) 命令が与えられる。プロセッサの選択は、アド レス一致回路81の動作の説明において概説した一致プ ロセスによって行われる。以下、このモードにおける命 令修正回路82の動作の詳細を説明する。

【0100】選択されたプロセッサにおいては信号CO INCO110がハイとなる。 (そのタイミングは図9 で説明したCOINC11-1信号のタイミングと同じ である)。 したがって、選択されたプロセッサでは信号 AMODE10及びCOINCO110はともにハイな ナルの命令に加えて、パス163及びこれに接続されて 50 ので、これらの信号が入力されるANDゲート615の (15)

特開平4-291659

出力もまたハイである。この出力は、ORゲート614 に入力されているので、ORゲート614及び616の 出力を順番にハイとする。従って選択されたプロセッサ では、トライステートドライバー613及び612はイ ネーブルとされる。これらのドライバーは命令パスIの 完全な内容を中間パス163を介して内部命令パス10 4 (図4) 上に伝える。このことは実質的に、選択され たプロセッサをイネーブルとして、マイクロコントロー ラ30によって伝達された一次命令を実行させることと 等価である。

【0101】選択されなかったプロセッサでは信号CO INCO110はハイとならないが、この結果、AND ゲート615の出力は命令サイクルの期間中(図9にお いて、命令ストロープINTRENがローである期間) ローである。これによってORゲート614出力は、他 の入力がローであるため、ローのままであり、ORゲー ト616の出力もローのままである。このため、トライ ステートドライパー613及びB612はディセーブル されたままである。しかしながらCOINCO110が ローである結果、これを入力とするインパータ630の 20 出力はハイであり、AMODE 10がハイである。この ことと併せて、この信号とインパータ630の出力が入 力されるANDゲート628の出力はハイとなる。この 出力は、中間パス163のピット0~28の一つにそれ ぞれ接続された複数のトライステートパッファ611 (図には一つのみ示す)をオンとする。各トライステー トバッファ611の入力は、プルアップ抵抗626(こ れは+5ポルト(定義よりハイレベル)に接続されてい る) によって、ハイである。これにより、パス163の ピット0から28は全て強制的にハイとなる。この好ま 30 しい装置においては、全てのビットがハイである命令 は、NOP (No-Operation) 命令と先験的に定義してあ る。しだがって、以上のようにして、非選択プロセッサ ではNOP命令がパス163に出力されることになる。

【0102】このモードのより詳しい説明及び例につい は、図10の説明を参照のこと。

【0 1 0 3】 <u>命令修正モード(A M O D E 信号:1</u> 1) : 表1に関して説明したように本実施例で用いる命 令はオペレーションコード (オペコード) 部 ( "AL U")を有する。本実施例では、このオペコード部は命 令の下位6ビットにあると仮定する。修正命令生成モー ドでは、命令修正回路82はマイクロコントローラ30 から転送された命令の下位2ピット(すなわち、オペコ ード部の下位2ピット)を修正することにより、新たな オペコードを有し、他の部分は元の命令と同じである、 新たな命令を生成する。さらに、新たに生成される命令 は、第1、第2プロセッサゾーンのそれぞれにより異な る。このモードでは、AMODE11 (303) 信号は ハイである。第8図において、10 (441) 及び11 (442) は、命令パス31の命令の2つの最下位ビッ 50 は、それぞれ異なる最終的な命令を受け取る異なるゾー

ト0, 1ある。同時に、IMOD1-0及びIMOD1 - 1 は第 1 命令修正フィールド I MOD 1 に含まれるビ ットであり、IMOD2-0及びIMOD2-1は第2 命令修正フィールドIMOD2に含まれるビットであ

28

【0104】図8において、オリジナルの命令のピット I 0 及び I 1 は、それぞれORゲート461, 462 に よって、第2命令修正フィールドIMOD1のピットI MOD1-0, IMOD1-1との間でOR演算がなさ れ、さらにORゲート463、464によって第2命令 修正フィールドIMOD2のピットIMOD2-0, I MODE2-1との間でOR演算がされる。これらのO Rゲートの出力はトライステートドライパー453,4 54,451,452がアクティブのときに、中間パス 163に出力される。ところで第1プロセッサゾーン内 のプロセッサでは、前述したように一致信号COINC 11-1がハイであるので、修正命令生成モードでは、 ANDゲート402の入力COINC11-1とAMO DE11がともにハイであるため、このANDゲート4 02の出力はハイとなり、ドライバ453,454をと もにアクティブとする。この結果ORゲート463,4 64の出力がバス163に出力される。同様に第2プロ セッサゾーン内のプロセッサでは、ANDゲート401 がオンとなり、ドライバ451,452がともにアクテ ィブとなり、オアゲート461、462の出力が中間パ ス163に出力される。各PEは第1プロセッサゾーン もしくは第2プロセッサゾーンのどちらか一方に戻し、 その情報をプロセッサ I D レジスタ84内に持つ。プロ セッサIDレジスタ内のゾーン情報はPROCID信号 によりアドレス一致回路81に送られアドレスパス内の ゾーン指定P21およびP22と比較され一致した場合 COINC11-1またはCOINC11-2が1とな る。このように、ドライバ451と452の組と453 と454の組の内、1方の組のドライバーのみが一時に アクティブとなり、従ってバス163上でこれらの組の 出力が衝突することはない。こうしてオアゲート46 1, 462の組又は463, 464の組の出力が二次命 令の下位2ピットとしてパス163に出力される。

【0105】ここで、命令修正ピットによるオリジナル の命令ピットの修正(「変調」という語を使用すること もできる)のためにORゲート461~464を使用す ることは、このプロセスに使用できる多くの選択枝の中 の一つに過ぎないということを述べておきたいと思う。 【0106】この具体例では、命令パス131の最下位 の2ビットだけが命令修正回路82によって演算され、 残りの部分は修正されない。しかしながらこれは既に、 自分が含まれるプロセッサゾーンに基づいてそのプロセ ッサに対して使用される新しい命令の組をいくつか持っ ていることと等価である。プロセッサアレーの区分け

-439--

29

ンにあるプロセッサ47に関して行われる(マイクロコ ントローラ30から命令パス39を通して伝達されるオ リジナルの命令に対して、最終的な命令によって、プロ セッサの内部命令パス (IIB) 51上に位置する最終 的な命令を理解する)。 ゾーンは書き込み可能のPRO CIDによって規定されるので、アレーに対する非常に 多種類の変形が可能であり、一つの命令から次の命令へ と大きく変化する。

【0107】図9及びコントロール信号のタイミングシ ーケンスについて前のセクションで与えた説明を参照す ると、一致信号(例えば、COINC11-1)が安定 である時は、内部命令パス104 (図4) はクロックサ イクル7から12及び19から24 (ゲートによる小さ い遅延は無視する)の期間中は安定であることが分か る。この一致信号は図8に示すトライステートドライバ ー(453や454など)をイネーブルにする(ハイの 時に)。

【0108】このモードの更に詳しい説明や例について は、図11の説明を参照のこと。

【0109】図9に示すように、アドレスパス39は6 20 クロックサイクルごとに更新される。クロックサイクル 1から6及び13から18においては、アドレスパス3 9はアドレス情報 (アドレスワード) を示している。こ の情報は、各命令サイクル(命令ライン31が安定であ る、クロックサイクル7から12及び19から24) に 先だってアドレス更新信号NEWA信号を用いてラッチ 99 (図6) にラッチされる。ラッチされたアドレス は、パスA1 (図6) を介して使用可能である命令サイ クルにおいてはアドレスパス (A) 39の内容は異な 内容とPROCIDラインとの間の一致プロセスに基づ いてプロセッサアレーの区分け(2次的な命令の生成及 び実行に関数する)のために使用する情報 (一致ワー ド)を示じている。

【0110】図10は、提案された回路の可能な動作モ ードの一つであるプロセッサ選択モードを理解するのに 役立つよう図式的に示したものである。このモードでは アドレスパス (A) 39は、イネーブルとされてマイク ロコントローラ30からプロセッサへ伝達された命令を 実行するプロセッサを選択するために使用される。命令 は修正されない。図に示した例で8×8個のプロセッサ のみを持っているプロセッサアレーとしたのは、便宜を 考慮したためである。この図は事実上プロセッサ選択モ ードでは、アレー40内の各プロセッサによって実行さ れる命令471のマップ401である。ここでマイクロ コントローラ30から伝達されるオリジナルの命令が、 EX-OR (排他的論理和)命令であると仮定する。図 を見ると分かるように、アレー40の上から6列はオリ ジナルの命令EX-〇尺 (472) を実行するようイネ

30 実式的に効果を生じないNOP (No-Operation) 命令を 実行する。このことは図8を参照すると説明できる。ア レーの中の上の6列のプロセッサに対しては、一致信号 COINCO110は論理1であり、下の2列に対して は論理 0 である。このことは前に説明したように、各プ ロセッサのプロセッサIDレジスタ84及びアドレスー 致マスクレジスタ85の中に適当な値をセットすること によって得られる。信号COINCO110がハイであ る結果、そしてモード信号AMODE 10もまたハイで あるために、上の6列のプロセッサ (これが選択された プロセッサである) に対して、ANDゲート615 (図 8) の出力はハイとなり、これによってORゲート61 4及び616の出力もまたハイとなる。この結果、トラ イステートパッファ613及び612はオンとなり、マ イクロコントローラの命令パスI上の次命令の全ピット をパス163に伝達し、もってこ一次命令を内部命令バ ス(IIB) 104 (図4) に乗せる。このように2次 的な(導出)命令(すなわち内部命令パス(IIB)1 04上にある命令)は、マイクロコントローラ30によ って伝達されるオリジナルの命令の等しいコピー、すな

【0111】アレーの中の下2列のプロセッサ(選択さ れていないプロセッサ)については、ANDゲート61 5の出力は、COINCO110がローであるのでロー となり、これによりORゲート614及び616もまた ローとなる。この結果、トライステートパッファ613 及び612はオフとなり、オリジナルの命令が内部命令 パス163へ転送されるのを遮断している。しかしなが らインパータ630の出力は、アレーの最後の2列のブ る。すなわち、ラッチされていないアドレスパス39の30 ロセッサに対してはハイとなり、これとモード信号AMODE 10の値がハイであることから、ANDゲート6 28の出力をハイとし、これは複数のトライステートパ ッファ611 (図では一つのみ示す) を順次オンとす る。これらトライステートパッファ611の入力は、プ ルアップ抵抗626 (定義より+5ポルトの電圧に接続 されている) によってハイである。これによりパス16 3の全てのピット0から28の値はハイとなり、これは 順次内部命令パスIIBに転送される。全てのピットが ハイである内部命令は、ここでの好ましい装置の内部の 40 命令の組では、NOP (No-Operation) 命令と定義され ている。これらより図10のマップが導かれ、下2列の プロセッサはダミーのNOP動作を実行し、事実上の効 果は生じない。

わちEX-OR命令である。

【0112】第11図は、命令修正モードの理解に役立 つ図式的な表示である。このモードではマイクロコント ローラ30によって命令パス31上に伝達された単一の 命令から開始して異なるプロセッサにおいて別々の命令 を生成することを可能とする。第11図の例において、 プロセッサアレーは便宜のために8×8個のみ図示して ープルとされており、一方最後の2列は、ダミー命令で50 ある。この図は事実上、モード11の時のアレー内の各 (17)

特閣平4-291659

32

プロセッサによって実行される命令のマップ401であ る。マイクロコントローラ30によって伝達されるオリ ジナルの命令はEX-OR(排他的論理和)命令である と仮定する。図よりプロセッサアレー40の中のプロセ ッサは2つのゾーンに区分けされ、一方(図11の外側 ゾーン) は2次的(導出)命令である+(加算)命令4 75を実行し、他方(図11の内側ゾーン)は2次的 (導出)命令である(減算)命令477を実行する。こ れは図9へ戻って参照すれば説明することができる。図 COINC11-1はハイで、内側ゾーンのプロセッサ に対してはローであると仮定する。同時に、一致信号C OINC11-2は外側ゾーンのプロセッサにおいては ロー、内側ゾーンのプロセッサに対してはハイである。 これは前に説明したように、図7の回路において適当な 一致をトリガーするために、各プロセッサ内のプロセッ サIDレジスタ84及びアドレス一致マスクレジスタ8 5に適当な値をセットすることによって、得られる。ア ドレス一致回路81を参照して説明した我々の例に関し ては、外側のゾーンにあるプロセッサはプロセッサゾー 20 ン1 (PZ1) に属し、内側のゾーンにあるプロセッサ はプロセッサゾーン2(P22)に属する。

31

【0113】図8より分かるように、P21にあるプロ セッサは、内部命令の最初の2つのビットに対して一組 のトライステートドライパー453及び454の出力を 使用する (COINC11-1のハイレベルによりこれ らのドライバーをイネーブルにする), 同時に、P22\*

\*にあるプロセッサは内部命令の最初の2ピットに対して 他の組のトラステートドライバー451及び452の出 カを使用する (COINC11-2のハイレベルにより これらのドライバーをイネーブルにする)。 各組のトラ イステートパッファ451, 452又は453, 454 の入力側に位置するORゲート461, 462又は46 3, 464は、適当な命令修正ピットIMODによって オリジナルの命令ビットIOおよびI1の変調を生成す る。各組のトライステートドライバーによって、中間バ 8において、外側ソーンのプロセッサにおいて一致信号 10 ス163を介して内部命令パス104上に位置された命 令は、このように命令修正フィールド(プロセッサゾー ン1におけるプロセッサに対してはIMOD1、プロセ ッサゾーン2におけるプロセッサに対しては I MOD 2) に対応して修正された最初の2つのピットを有して いる。

> 【0114】図11に示す場合には、オリジナルの命令 (EX-OR命令)は、算術論理ユニット (ALU) 6 7 (図4) によってデコードされる2つの2次的な(導 出)命令に変換される。これらはそれぞれ+(換算)命 令及び- (減算) 命令である。ALU67の構成に基づ いて、2次的な命令をデコードする種々の可能性が考え られる.

【0115】表5は、マイクロコントローラによって伝 達される最初の命令といくつかの2次的な命令との関連 を示している。

[0116]

【表5】

|       |     |     |    | 表 6      |    | ( A | MOC | E 1 1 | = 1 )  |
|-------|-----|-----|----|----------|----|-----|-----|-------|--------|
|       | _   | 次   | की | 슊        |    | :   | = # | र कि  | 令      |
| 10 11 | 1 2 | 1 3 |    | 129      | 10 | 11  | 1 2 | 1 3   | 1 2 9  |
| 0 0   | 1   | 0   |    | 1(EX-OR) | 0  | 1   | 1   | 0     | 1 (+)  |
|       |     |     |    |          | 1  | 1   | 1   | 0     | 1 (-)  |
|       |     |     |    |          | 1  | 0   | 1   | 0     | 1(AND) |

【0117】ここで示されているのは、図11を参照し て上で議論したものと同じものであり、29ビット長の 最初の (primary) 及び2次的な命令が仮定されている 40 (IOからI28)。この場合最初の命令はEX-OR 命令であり、この命令から導出可能な3つの命令は+ (加算)、- (減算)、及び論理ANDである。これら 4つの命令は最下位の2ピットIOおよびI1を例外と して、それ以外のピット構成は同一である。これら2つ のビットIO及びI1は、プロセッサゾーンのビットと PROCIDライン (上記図11の説明参照) との一致 に基づいて、命令回路によって対応する命令修正部分 (表4) と聞き換えられる。この好ましい具体例では、 各最初の命令に対して一度に3つの置き換え(導出命 50 トよりも幅が広くなければならない。例えば、64個の

令)ができるが、アドレスワードの構造(表4)におい てたった2つのプロセッサゾーンしかないので、2つの 2次的な命令だけを同時にプロセッサアレー中で使用す ることができる。

【0118】プロセッサアレーの命令の全ての組は、そ れぞれが4つの命令を含む、命令のサブセットに区分け されることが分かる。サブセットのなかの4つの命令の それぞれは、最初の命令としてマイクロコントローラに よって伝達され、そしてサブセットの中の残りの3つの 命令の中から2つを置き換えることができる。

【0119】それぞれの命令が他の命令によって置き換 えがなされるためには、命令修正ピットの部分は2ピッ

(18)

最初の位置を含んでいる命令セットにおいて完全な置き 換えを行うためには、64種類のデコードを行うために 命令修正ピットは6ピットでなければならない。この場 合に命令修正回路に対して便利な構成は、ROM(リー ドオンリメモリ) とすることである。このROMに対す る入力 (アドレス) は現在のプロセッサゾーンに対応す る命令修正ピットとなり、ROMからの出力は2次的な (導出)命令となる。このROMはアレーの中のプロセ ッサのそれぞれについて格納しなければならないので、 より進んだ集積回路技術が使われるようになって初めて 現実のものとなる。

.3.3

【0120】ここでの具体例では2次的な命令はALU 部分のみが最初の命令と異なっているが、命令の他の部 分に対する修正 (INSEL, OUTSEL, SHIF T, IO, REGSEL, INEN, 及びOEN) も同 様に行うことができる。

#### 【0121】〇変形例

当業者にとっては明らかなように、本発明の思想及び範 囲の中において上で説明した具体例に対する多くの変形 が可能である。

【0122】1次的な命令から2次的な命令が生成され る方法に関して「生成」という話を使う場合には常に、 特別な場合として2次的な命令がオリジナルの(1次的 な)命令と等しい場合を含む。

【0123】複数の2次的な命令のローカルな生成及び 実行を行うことを目的として、プロセッサアレーの再配 置のために必要とされる余分な情報を伝達する搬送手段 としてアドレスパスを使用することは、有利なことであ るが(既にシステムの中で配線されているバスを使うの だから)、しかし本発明はこれに限らない。たとえば、 かわりにマイクロコントローラによって駆動される別の コントロールバスを使用してもよい。この方法の不利な 点は、この追加したコントロールパスをアレーの中の全 てのプロセッサに対してルーチングする必要があるとい うことである。しかしこの場合、アドレスパスはこれ以 上時分割多重(time-multiplexed)しないので、マイク ロコントローラによって生成される信号のタイミングシ ーケンスはより簡単となる。またアドレスパスをラッチ する必要もなくなるという利点を有する。

【0124】図2及び図4に示すプロセッサ47のダイ アグラムもまた、単に一例を示すに過ぎない。ALU内 のピット数及び通信ポートの数もまた選択できる。

【0125】本発明は、プロセッサアレー40の中のプ ロセッサ全てを接続するのに使用する相互接続ネットワ ークとは独立して実施することができる。 われわれの説 明では、網目状のネットワークが用いられ、最も近い隣 同士を接続したが、これも変形することができる。ま た、プロセッサどうしの間でデータの交換に使用したル ーチングも変形できる。これを回路スイッチ式、又はパ ケットスイッチ式とすることもでき、絶対的な又は相対 50 ある。このようなマシンでは、マイクロコンピュータは

34

的なアドレシングに基づくこともできる。

[0126] 好ましい具体例において提案された相互接 統が、ワイヤを基礎とした相互接続技術に使用されてい るが、コントロール信号又はデータのワイヤレスでの配 置(例えば光学的な手段によって)も本発明の範囲であ

【0127】ホストコンピュータ20及びマイクロコン トローラ30は種々の構成が可能であり、これらを結合 して1つのユニットにもできる。

【0128】プロセッサアレー40は長方形として示さ れているが、パッケージング技術及び使用される相互接 統ネットワークに基づいて、別の配置を使用してもよ

【0129】プロセッサIDレジスタ84の内容は必ず しもアレーの中のプロセッサの現在の物理的なアドレス と関係がある必要はない。プロセッサアレーをプロセッ サゾーンに有効に分割するのに有用と思われる任意のマ スクパターンを使用することができる。これに関連して プロセッサゾーンとは、単純に、同じ2次的な(派生し た)命令を同時に実行するプロセッサのグループとして 定義される。

【0130】プロセッサIDレジスタ84は読み出し-書き込み機能を持つことができるので(R A M 又はレジ スタが最も直接的である)、プロセッサアレーの分割 は、アレー中にマップされたアルゴリズムの必要性に依 存して、一つの命令ごとにダイナミックに変更すること もできる。

【0131】アドレスパス及びプロセッサ I Dレジスタ 84のピットの内、一致を検出すべきピットの割り当て を変更することもできる。これはまた、割り当てがダイ ナミックに変化する、再プログラム可能の装置とするこ ともできる。

【0132】我々が提案した本発明の具体例において は、全てのアドレスパスが全てのプロセッサに接続され ていた。アドレスバスがプロセッサに接続される前にデ コードされる場合には、共通のチップセレクトラインが アレーの同じ空間領域にある全てのプロセッサに接続さ れてよい(すなわち同じ列、同じ行、又は同じプリント 基板内の全てのプロセッサに対する共通のチップセレク ト信号)。この場合でも我々の発明は適用され得るが、 プロセッサゾーン内のアレーの区分けを規定する際に得 られる空間的な分割は、それぞれのチップセレクトによ ってコントロールされる領域(列、行、又は基板)に帰 着される。この場合、個々のアドレスピットの場合とは 反対に、一致検出プロセスはデコードさアドレス信号 (チップセレクト) によって指示される。

【0133】好ましい具体例は、我々の発明が適用され る並列コンピュータに対するSIMDモデルを仮定して いる。しかしながら、MIMDマシンへの拡張も可能で

特開平4-291659

(19)

いくつかの命令の流れをプロセッサアレーへ与える。こ のような環境において本発明を適用することによって、 元々同じ命令を受け取るプロセッサがローカルには別々 の2次的な命令を生成することができる可能性へと通じ る。このようにして、計算の粒度 (granularity) (す なわち全て同じ命令を実行するプロセッサのドメインの 寸法)を減少させることができ、これにより並列アレー において、より複雑な並列アルゴリズムを搭載すること ができる。

35

【0134】さらに、他の変形例として本発明はMIM 10 D構成の並列プロセッサにも適用可能である。図13に おいて例示したように、MIMDプロセッサアレー39 9 はいくつかのプロセッサの基本的なグループに分割さ れ、各グループは共通の命令を受け取る。例えば、図1 3のプロセッサアレー399では、基本的な一つのプロ セッサグループ821に属するプロセッサは全て同じ命 令(I1)813を受取り、一方基本的な他のプロセッ サグループ823の中のプロセッサは全て同じ命令(I 6) 817を受け取る。同時に、プロセッサグループ8 11に対応するアドレスパスは(A1)811、プロセ 20 ッサグループ823に対応するアドレスパスは(A6) 816である。全てプロセッサは、先に実施例で述べた ように、アドレス一致回路及び命令修正回路を含んでい る。それぞれの基本的なプロセッサグループは自分のア ドレスモードラインを持ち、プロセッサグループ821 に対してはAMODE18ライン14、プロセッサグル ープ823に対してはAMODE68ライン18を有し ている。

【0135】図14に示したように、我々の発明を別々 に基本プロセッサグループに適用した結果、2次的な命 30 実施例を詳細に示す。 令は対応する最初の命令流から各プロセッサにおいてロ ーカルに生成され、命令修正情報は対応するアドレスパ スに含まれる。従って各プロセッサグループはより小さ い2次的なプロセッサグループに分割され、各2次的な プロセッサグループは同じ派生命令を実行する。このよ うに基本プロセッサグループ821内のプロセッサが2 つの2次的なプロセッサグループ831 (派生命令NO Pを実行)及び832 (派生命令EX-ORを実行)に 分割されるが、これらは同じ一次的命令を受け取る。同 時に、基本プロセッサグループ823も2つの2次的な 40 プロセッサグループ834 (導出命令+、算術和を実 行) 及び835 (導出命令EX-OR、排他的論理和) に分割されるが、これらは同じ一次的命令を受け取る。

[0136] 結果として、計算の粒度は、同じ最初の命 令を実行する3×3個のプロセッサからより小さいサイ ズへ縮小する。 したがってプロセッサアレー内のより復 雑なマッピング(空間的分解)を必要とするアルゴリズ ムでも、アレーにおいてうまくマッピングされる(マッ ピングとは、元々のアルゴリズムからプロセッサの空間 的物理的な配償に対して命令を配償させることであ 50 レクタ2410~2440により構成されている。拡張

る)。

【0137】○他の実施例

上記の実施例(以下、第1の実施例と呼ぶ)では、①命 令の修飾能力がアドレスパス幅で制限される。 ②命令の 修飾情報をマイクロコントローラ30で生成するため、 従来例に対して、マイクロコントローラ30を大幅修正 する必要がある。あるいは、応用ごとにマイクロコント ローラ30を変える必要がある。③マイクロ命令31と アドレスパス39のデコーダ回路を全てのPE内部に持 つため、プロセッサアレイ40の面積が必要以上に大き くなる。等の問題点がある。そこで、第2の実施例を以 下に示す。

36

【0138】図15は、第1の実施例と第2の実施例の 違いを示すためのシステム構成の概略図である。第1の 実施例と第2の実施例の違いを示すために不要な信号線 は省略している。SIMDの拡張を行う場合、図15 (a) では、マイクロ命令31をアドレスパス39を利 用した情報で修飾して各PEの演算機能を決定する。修 飾の有無はAMODE34で指定する。命令修飾情報は マイクロコントローラ30で生成する。演算機能を決定 するための回路は全てのPE内に持つ。一方、図15 (b) では、SEL1031の信号値に従い、予めチッ プ内に準備された拡張機能配憶装置1200からの命令 のみにより各PEの演算機能が決定する。拡張機能記憶 装置1200には、既にデコードした後の信号を格納可 能である。マイクロコントローラ30には命令修飾情報 を生成するための修正を行う必要はない。各PE内で命 令のデコードは不要である。従って、第1の実施例が持 つ上記①~③の問題点を対策可能である。以下、第2の

【0139】図16は、各PEの列ごとに一つの拡張機 能記憶装置を対応させたプロセッサアレイ40の一例を 示している。図16において、1511~1514、1 521~1524, 1531~1534, 1541~1 5 4 4 はプロセッサアレイ 4 0 を構成する P E である。 1301は拡張機能指定信号であり、全PEが同一演算 機能を実行するか、あるいは各列ごとに異なる演算機能 を実行するかを指定する。1302は通常のSIMDア ーキテクチャ時のALUの演算機能指定信号であり、マ イクロ命令31で与える例を示している。1100は命 今決定回路であり、拡張機能記憶装置1200を含んで いる。命令決定回路1100は、信号1301、130 2および拡張機能記憶装置1200からの情報をもとに **ALU制御信号1410~1440およびNOP(No OP** eration)指定信号1416、1426、1436、14 46を出力する。

【0140】図17に命令決定回路1100の一例を示 す。図17において、命令決定回路1100は、デコー グ回路DEC1120、拡張機能記憶装置1200、セ

(20)

特開平4-291659

37

機能記憶装置1200はRAM、EPROM等の書替え 可能なメモリまたはレジスタで構成されている。図17 の例では、拡張機能配憶装置1200は1210~12 40の4個のサブグループに分かれている。各サブグル プは、それぞれ異なるPEグループ(1511~15 14, 1521~1524, 1531~1534, 15 41~1544) に対応している。デコーダ回路DEC 1120は、信号1302を、通常のSIMDアーキテ クチャ時のALUの演算機能指定信号とする場合のデコ - 夕回路である。図17の例では、信号1302は拡張 機能配憶装置1200のアドレス信号も兼ねている。セ レクタ2410~2440は拡張機能指定信号1301 に従い、予め拡張機能配憶装置1200に格納された命 令(2210~2240)とマイクロ命令で指定された 命令(デコーダ回路DEC1120の出力信号212 のどちらをALU制御信号1410~1440とす るかを選択する。2210は拡張機能記憶装置1210 に格納された5ビットの信号値と、同じく拡張機能配億 装置1210に格納された信号値1216との論理積を とった信号である。2220は拡張機能記憶装置122 0に格納された5ピットの信号値と、同じく拡張機能配 憶装置1220に格納された信号値1226との論理積 をとった信号である。2230は拡張機能配憶装置12 30に格納された5ピットの信号値と、同じく拡張機能 配憶装置1230に格納された信号値1236との論理 積をとった信号である。2240は拡張機能記憶装置1 240に格納された5ピットの信号値と、同じく拡張機 能記憶装置1240に格納された信号値1246との論 理積をとった信号である。1416~1446はNOP 指定信号である。

【0141】以下、命令決定回路1100の機能を説明 する。命令決定回路1100は、マイクロ命令31から 入力した拡張機能指定信号1301の信号値が0の場 合、マイクロ命令31から入力した演算機能指定信号1 302をDEC1120でデコードした信号2120の 信号値を、それぞれ出力信号1410~1440に伝え る。出力信号1416、1426、1436、1446 の信号値は0とする。命令決定回路1100は、マイク 口命令31から入力した拡張機能指定信号1301の信 号値が1の場合、マイクロ命令31から入力した信号1 302を拡張機能配憶装置1200のアドレス情報とし て、拡張機能記憶装置1210に格納された5ピットの 信号値とNOP指定信号1216との論理積を、出力信 号1410に伝える。同様に、1220~1240に格 納された5ピットの信号値とNOP指定信号1226、 1236、1246との論理積を、それぞれ出力信号1 420、1430、1440に伝える。出力信号141 6、1426、1436、1446の信号値は、それぞ れNOP指定信号1216、1226、1236、12 46の信号値が0の場合のみ、1とする。

【0142】図18にセレクタ2410の詳細回路図を示す。セレクタ2420~2440も同一構成である。セレクタ2410は拡張機能指定信号1301の信号値が0の場合、信号2121~2125の信号値を、それぞれ出力信号1411~1415に伝える。出力信号1416の信号値は0となる。拡張機能指定信号1301の信号値が1の場合、信号2211~2215の信号値を、それぞれ出力信号1411~1415に伝える。出力信号1416の信号値はNOP指定信号1216の信号値が1のとき0、0のとき1となる。ここで、信号2211~2215は、それぞれ情報記憶手段1216格納された5ビットの信号値とNOP指定信号1216との論理積をとった信号である。

38

【0143】図19に算術論理演算ユニット (ALU) 1610の一例を示す。図19において、1611と1 612はALU1610の入力信号であり、1613は 出力信号である。1411~1415はALU1610 の制御信号である。5本の制御信号のうち、1411~ 1413の信号値により、AND、OR、EOR、AD Dの4つの演算機能の中から一つを選択する。制御信号 1414の信号値が1のとき、スイッチ1063がオン 状態となり、入力信号1612の信号値(S)が演算処 理に使用される。制御信号1414の信号値が0のと き、スイッチ1064がオン状態となり、入力信号16 12の信号値を反転した値 (-S) が演算処理に使用さ れる。制御信号1415の信号値が1のとき、スイッチ 1061がオン状態となり、入力信号1611の信号値 (R) が演算処理に使用される。制御信号1415の信 号値が0のとき、スイッチ1062がオン状態となり、 入力信号1611の信号値を反転した値(-R)が演算 処理に使用される。ただし、スイッチ1061~106

【0144】表6は、8種類の演算処理機能(ALU機能)に対して、各演算処理機能を実現するための制御信号1411~1415の信号値(5ビット)およびマイクロ命令での対応するコード(3ビット)を示している。

4がオンとなるのは、クロック信号PH1が1のときだ

けである。制御信号1411~1415の信号値と演算

処理機能(ALU機能)およびマイクロ命令での対応す

【0145】

るコードの関係を表6に示す。

特開平4-291659

(21)

10

|    |        |    | _   |    |      |   |
|----|--------|----|-----|----|------|---|
| ロド | ALU機能  | ΑL | . Ų | 制役 | D (E | 号 |
|    | ALUXAE | 1  | 1   | 1  | 1    | 1 |
|    |        | 4  | 4   | 4  | 4    | 4 |
|    |        | 1  | 1   | 1  | 1    | 1 |
|    |        | 5  | 4   | 3  | 2    | 1 |
| 0  | R+S    | 1  | 1   | 1  | 1    | 0 |
| 1  | R - S  | 1  | 0   | 1  | 1    | 0 |
| 0  | R⊕S    | 1  | 1   | 0  | 1    | 0 |
| 1  | R⊕S    | 1  | 0   | 0  | 1    | 0 |
| 0  | S - R  | 0  | 1   | 1  | 1    | 0 |
| 1  | RAS    | 1  | 1   | 0  | 1_   | 1 |
| 0  | R∨S    | 1  | 1   | 0  | 0    | 0 |
| 1  | RAS    | 1  | 1   | 0  | 1    | 1 |

39

表 6

【0146】従って、制御信号1411~1415の信 張機能配憶装置1200に格納しておくことにより、拡 張機能指定信号1301の信号値が1の場合、各PEグ ループごとに異なる演算処理機能を実行可能である。

【0147】図20は、PEグループの数が4つの場合 を例にとり、拡張機能配憶装置1210~1240に格 納したコードと各PEグループの演算処理機能の関係を 示している。図20において、40はプロセッサアレ イ、1510~1540はPEグループを示している。 拡張機能記憶装置1210~1240の最上位ピットは NOP指定ピットであり、0のときNOP指定である。 拡張機能記憶装置1210~1240の下位5ピットは 表6に示した制御信号1411~1415の信号値(5 ビット) である。すなわち、拡張機能記憶装置1210 ~1240のアドレス0を指定すると、PEグループ1 510と1520は加算を実行し、PEグループ153 0と1540は減算を実行する。アドレス1を指定する と、PEグループ1510、1520と1540は加算 を実行し、PEグループ1530はNOPとなる。アド レス2を指定すると、PEグループ1510は論理積を 実行し、PEグループ1520、1530と1540は 40 は算術論理演算装置 (ALU)、1611 (R)と16 論理和を実行する。アドレス3を指定すると、PEグル - プ1510は加算を実行し、PEグループ1520は 減算を実行し、PEグループ1530は排他的論理和を 実行し、PEグループ1540は論理和を実行する。図 20の例では、このような組合せを全部で8種類拡張機 能配憶装置1210~1240に格納できる。

[0148] 表7に、図17に示したデコーダ1120 の真理値表を示す。

[0149]

【表7】

| ₽. | 10 | П<br>К |   | . U | 制行 | 卸信 |   |
|----|----|--------|---|-----|----|----|---|
|    | 1  |        | 2 | 2   | 2  | 2  | 2 |
|    | 3  |        | 1 | 1   | 1  | 1  | 1 |
|    | 0  |        | 2 | 2   | 2  | 2  | 2 |
|    | 2  |        | 5 | 4   | 3  | 2  | 1 |
| 0  | 0  | 0      | 1 | 1   | 1  | 1  | 0 |
| 0  | 0  | 1      | 1 | 0   | 1  | 1  | 0 |
| 0  | 1  | 0      | 1 | 1   | 0  | 1  | 0 |
| 0  | 1  | 1      | 1 | 0   | 0  | 1  | 0 |
| 1  | 0  | 0      | 0 | 1   | 1  | 1  | 0 |
| 1  | 0  | 1      | 0 | 1   | 0  | 1  | 1 |
| 1  | 1  | 0      | 1 | 1   | 0  | 0  | 0 |
| 1  | 1  | 1_     | 1 | 1   | 0  | 1  | 1 |

40

表 7

【0150】入力信号1302で指定したコードに従 号値 (5 ピット) を、各 P E ごとに予め図17に示す拡 20 い、表 6 に示したA L U制御信号1411~1415の 8種類のパターンのうちの一つが選択される。 すなわ ち、表6に示した8種類の演算処理機能(ALU機能) のうちの一つが選択される。

> 【0151】図21は、図17に示した命令決定回路1 100を用いた他の並列プロセッサの一例である。図2 1において、40は並列プロセッサを実現するLSIで あり、1510~1540は並列プロセッサを構成する PEである。LSI40は、マイクロ命令31で指定し た拡張機能指定信号1301および演算機能指定信号1 302を命令決定回路1100の入力として、PE1の 演算機能の制御信号1411~1415およびNOP指 定信号1416を生成する。同様に、PE2の演算機能 の制御信号1421~1425およびNOP制御信号1 426を生成する。PE3の演算機能の制御信号143 1~1435およびNOP制御信号1436を生成す る。PE4の演算機能の制御信号1441~1445お よびNOP制御信号1446を生成する。

【0152】図22はPE1の一構成例である。PE2 ~PE4も同一構成である。図22において、1610 12 (S) はALU1610の入力信号、1613は出 カ信号である。1620はシフタ (SFT)、1630 は汎用レジスタ (REG)、1640は演算の途中結果 を格納する作業用レジスタ (REG (W))、1650 は他PEからの入力データを一時的に格納する入力パッ ファ(IB)、1660は他PEへの出力データを一時 的に格納する出力パッファ (OB) である。1651は 他PEからの入力データを伝えるための配線、1661 は他PEへの出力データを伝えるための配線である。1 50 670および1680は、REG1630、REG

(22)

特開平4-291659

41

(W) 1640 s た は 1B1650 から A L U 1610 への入力データを伝えるためのパス、1690 は、A L U 1610 の演算結果をREG (W) 1640 s たは O B 1660 へ伝えるためのパスである。32 は PE 1 とホスト 計算機とのデータの投受を行なうためのデータパスである。 PE 1 を制御するための制御信号は省略している。

【0153】図23は、図22に示すPEを制御するための、マイクロ命令のフォーマットの一例である。図23において、フィールド1はパス1670への入力元お 10よびパス1670からの出力先を示す。フィールド2はパス1680からの出力先を示す。フィールド3はパス1680からの出力先を示す。フィールド3はパス1690への入力元およびパス1690からの出力先を示す。フィールド4はパス32への入力元およびパス32からの出力先を示す。フィールド5はALUの演算機能を制御する。ALUの演算機能制御部のうち、入力制御部はALUの入力マルチブレクサ(MUX)の制御を行う。機能指定部はALU単独の算術演算および論理演算を指定する。出力指定部はシフタ(SFT)に関する制御を行う。マイクロコ20一ドと制御機能の対応の一例をそれぞれ表8、表9および表10に示す。

【0154】 【表8】

表 8

|             | ,    |            |
|-------------|------|------------|
| マイクロコ ー ド   | ,    | ソース<br>ランド |
| I 2 I 1 I a | R    | S          |
| 0 0 0       | バスΑ  | バスΑ        |
| 0 0 1       | バスA  | バスΒ        |
| 0 1 0       | バスA  | 0 固定       |
| 0 1 1       | 0 固定 | バスA        |
| 1 0 0       | バス D | バスA        |
| 1 0 1       | パス D | バスΒ        |
| 1 1 0       | バス D | 0 固定       |
| 1 1 1       | 0 固定 | バスΒ        |

【0155】 【表9】

表 9

42

| マイクロコード  | ALU機能 |
|----------|-------|
| 15 I4 I3 |       |
| 000      | R + S |
| 001      | R - S |
| 0 1 0    | R⊕s   |
| 0 1 1    | R⊙s   |
| 100      | S-R   |
| 101      | R∧S   |
| 7 1 0    | R∨S   |
| 1 1 1    | RAS   |

【0156】 【按10】

40

(23)

表 10

特開平4-291659

44

| マイクロ | SFT | マイクロ |        | マイクロ | ·     | マイクロ | 作業用 |
|------|-----|------|--------|------|-------|------|-----|
| コード例 | 入力  | コード例 | SFT機能  | コード例 | SFT機能 | コード例 | REG |
| l 10 |     | lglg |        | 17   |       | 16   | 入力  |
| 0    | ALU | 0 0  | シフト無し  | 0    | バスCへ  | 0    | ALU |
|      |     | 0 1  | 右シフト   |      | 出力    |      |     |
| 1    | バスB | 1 0  | 左シフト   | 1    | バスCへ  | 1    | バスC |
|      |     | 1 1  | シフタ未通過 |      | 出力せず  |      |     |

【0157】前記演算機能指定信号1302は、表8の Io~ I2に対応する。拡張機能指定信号1301は、図 23に示すマイクロ命令のフォーマットに追加する必要 がある。

【0158】図24は、マイクロ命令31で指定した、 ALUの機能指定コード1032および拡張機能指定コ -ド1031と並列プロセッサ40を構成するPEグル 20 -ブ1510~1540の演算機能との対応を示してい る。拡張機能指定コード1031が0のとき、PEグル - ブ1510~1540は全て同一の演算を実行する。 実行する演算は、表 6 に示したマイクロコード (ALU の機能指定コード1032)とALU機能の対応表に従 う。拡張機能指定コード1031が1のとき、ALUの 機能指定コード1032は図20に示した拡張機能記憶 装置1210~1240のアドレス指定として使われ る。すなわち、予め拡張機能記憶装置1210~124 0に格納されたALU制御信号コードに対応するALU 30 のとき拡張機能配憶装置1210からデータの出力が行 機能が、それぞれのPEグループで実行される。ALU 制御信号コードとALU機能の対応は表6に従う。

【0159】以上の実施例では、各PEグループごとに 拡張機能記憶装置を対応させる例を示した。各PEごと に拡張機能配憶装置を対応させることも可能である。

【0160】以上の実施例では、拡張機能記憶装置をL SI内の1ヶ所にまとめて持つ例を示した。各PEごと に前配拡張機能配憶装置を持つことも可能である。

【0 1 6 1】 図 2 5 は、各PE内のレジスタの一部を情 報記憶手段として用いた他の実施例を示している。図2 5において、40はプロセッサアレイ、1510~15 40は並列プロセッサを構成するPEである。1301 は拡張機能指定信号である。1302はALUの演算機 能指定信号であり、マイクロ命令31で与える例を示し ている。1110はデコーダ回路であり、拡張機能記憶 装置のアドレス選択信号1111を出力する。1120 は図17に示したデコーダ回路1120であり、ALU 制御信号2120を出力する。32はホスト計算機とP Eとの間のデータの授受を行うためのデータパスであ

憶装置1210に関連する情報を図示している。PE1 520~1540も同一構成である。PE1510にお いて、1610は図19に示した算術論理演算ユニット (ALU)であり、1210は拡張機能記憶装置をレジ スタ群の一部を用いて構成している。拡張機能記憶装置 1210内へのALU制御信号コードの格納はデータバ ス32から行う。2410はセレクタ回路であり、拡張 機能指定信号1301の信号値に従い、拡張機能配憶装 置1210から読み出されたALUの制御信号2210 あるいはDEC1120の出力信号2120を選択し、 最終的なALUの制御信号1410とする。1217は NOP指定信号である。1670および1680はAL U1610への入力データを伝えるためのパス、169 0はALUの演算結果を伝えるためのバスである。図2 5では、クロック信号PH1が1のときALU1610 へのデータの入力が行われる。クロック信号PH2が1 われる。

【0162】以上の実施例では、全ての拡張機能記憶装 置が同一のアドレス選択信号を用いる例を示した。各拡 **張機能配憶装置ごとにアドレス選択信号を変えることも** 可能である。また、アドレス選択信号はマイクロ命令を 利用せずマイクロコントローラから与えることも可能で ある。各拡張機能記憶装置ごとに拡張機能指定信号を変 えることも可能である。拡張機能記憶装置に格納するコ - ドは、マイクロ命令で指定可能な(エンコードした状 40 態の) 演算機能指定コードとすることも可能である。

### [0163]

【発明の効果】この装置を用いる結果、並列コンピュー 夕に存在する元の命令からいくつかのプロセッサにおい て2次的な命令を生成し、異なるプロセッサでこれらの 別々の命令を同時に実行するようにできる。

## 【図面の簡単な説明】

【図1】本発明になる、並列処理集積回路のアレーを用 いたコンピュータシステムを示した図。

【図2】図1の理解を助ける波形図。

る。図25では、PE1510を例にとり、拡張機能配 50 【図3】図1のアレーの1つのプロセッサの一例の具体

(24)

特開平4-291659

45

例を示すブロックダイアグラム。

【図4】図3のブロックダイアグラムに示すメイン処理 ユニットのブロックダイアグラム。

【図 6 】図 3 のブロックダイアグラムに示すアドレスー 致回路のブロックダイアグラム。

【図 6】図3のブロックダイアグラムに示す外部メモリインターフェースユニットのブロックダイアグラム。

【図7】図5のプロックダイアグラムに示すアドレスー 致回路の論理回路を示す図。

【図8】図5のブロックダイアグラムに示す命令修正回 *10* 図。 路の論理回路を示す図。

【図9】 図7及び図8の回路の理解に役立つ波形を示す 図。

【図10】図1のシステムの可能な動作モードの一つを 図式的に示す図。

【図11】図1のシステムの別の可能な動作モードの一つを図式的に示す図。

【図12】従来の単一の命令の流れによって駆動される 並列処理集積回路のアレーを用いたコンピュータシステ ムの図。

【図13】本発明を適用したMIMDアーキテクチャの 並列プロセッサシステムを概略的に示すダイアグラム。

【図14】図13のシステムの動作モードの一つを図式 的に示すダイアグラム。

【図15】本発明の第1の実施例と第2の実施例の原理

の違いを示す図。

【図16】本発明の第2の実施例を示す図。

【図17】図16の命令決定回路の詳細を示す図。

【図18】図17のセレクタの詳細を示す図。

【図19】図16の装置に用いる算術論理演算回路の図。

46

【図20】図16の装置における、複数のプロセッサグループを示す図。

【図21】本発明による他の並列プロセッサの例を示す

【図22】図21の装置におけるプロセッサの詳細を示す図。

【図23】図21の装置に用いるマイクロ命令のフォーマットを示す図。

【図24】図21の装置における、マイクロ命令と各プロセッサグループの演算との関係を示す図。

【図25】本発明による、さらに他の実施例を示す図。

【図26】図5のプロセッサ I Dレジスタ (84) の動作のタイムチャート。

20 【図 2 7】図 5 のアドレス一致マスクレジスタの動作の タイムチャート。

【符号の説明】

47…プロセッサ、31…命令バス、32…データバス、34…アドレスモード信号パス、36…ステータスフラグパス、39…アドレスパス

[図10]



|          |          |          | 図 1 | 0        |          |          |          |              |
|----------|----------|----------|-----|----------|----------|----------|----------|--------------|
|          | 1        | 171      |     |          |          |          | ſ        | <b>-</b> 401 |
| Ф        | $\oplus$ | Ф        | Ф   | Ф        | $\oplus$ | $\oplus$ | $\oplus$ |              |
| $\oplus$ | Ф        | $\oplus$ | Ф   | $\oplus$ | $\oplus$ | $\oplus$ | Ф        |              |
| $\oplus$ | $\oplus$ | $\oplus$ | Ф   | Ф        | $\oplus$ | <b>⊕</b> | Ф        |              |
| $\oplus$ | Ф        | Ф        | Ф   | Ð        | $\oplus$ | Ф        | $\oplus$ |              |
| $\oplus$ | θ        | Φ        | Ф   | Φ        | Ф        | Ф        | $\oplus$ |              |
| $\oplus$ | $\oplus$ | θ        | Ф   | Ф        | θ        | $\Theta$ | ф        |              |
| NOP      | NOP      | NOP      | МОР | NOP      | МОР      | NOP      | NOP      | 472          |
| NOP      | NOP      | NOP      | NOP | NOP      | NOP      | NOP      | NOP      |              |
|          |          |          |     |          |          |          |          | 473          |

(25)

特開平4-291659

[図2]

図 2 7 Clock Cycle 0 ------4 5 6 7-----11 12-----15 17 18 19------23 √命令ストロープ AMODE 0-1 34

ATTENTION TO THE TOTAL TO THE 一数ワード アトレスサンブル MALITATIVA TOWN TAXALLY STREET, STREET **フドレスワード** tringthytringthytrix 命 令 「命令ストローブ - 数ワード トーフドレスサンブル INSTREN 44 NEWA 46 PHI 2 1 31 032

X: Kントケア

(26)

特開平4-291659





(27)

特開平4-291659



(28)

特開平4-291659

[図5]



(29)

特開平4-291659



(30)

特開平4-291659



(31)

特開平4-291659

[図8]



(32)

特開平4-291659

图 9



X: Fントケア

(33)

特開平4-291659



[図 1 3 ] Bo : a





(35)

特開平4-291659

[图16]

図16



(36)

特開平4-291659

[図17]





[図21]



(37)

特開平4-291659



[図23]

፟ 23

| フィー     | ルド1      | フィー     | ルド2     | フィー     | ルド3      | フィー     | ルド4                      | フィールド5    |           |           |  |
|---------|----------|---------|---------|---------|----------|---------|--------------------------|-----------|-----------|-----------|--|
| パス制     | — A<br>御 | バス<br>制 | -       |         | - C<br>御 |         | (一D<br>))<br>)<br>)<br>) | i         | 演算制御      |           |  |
| S<br>指定 | D<br>指定  | S<br>指定 | D<br>指定 | S<br>指定 | D<br>指定  | S<br>指定 | D<br>指定                  | ALU<br>入力 | ALU<br>機能 | ALU<br>出力 |  |

注) S:Source, D:Destination

(38)

特開平4-291659

[図22]

図 22



[図26]

図 26



(39)

特開平4-291659

[図24]

図 24



(40)

特開平4-291659

【図25】

Ø 25



[図27]

図 27